Un experimento de extracción de terminología utilizando algoritmos estadísticos supervisados
Palavras-chave:
Extração de Terminologia, Análise Estatística de Textos Especializados, Aprendizado de Máquina, Terminografia Computacional, Conhecimento ImplícitoResumo
Este artigo descreve uma metodologia para a extração automática de candidatos a termos baseada em técnicas de análise estatística de textos. Diferentemente da maioria dos extratores de terminologia que aparecem na literatura sobre o assunto, a nossa proposta não integra qualquer conhecimento explícito sobre a língua ou o domínio que está sendo analisado. Este algoritmo extrai as informações diretamente dos dados analisados, por meio de uma fase de treinamento na qual um usuário “ensina” os exemplos de unidades terminológicas (uma lista de termos validados) e unidades não terminológicas (uma coleção de textos não especializados). A partir destes exemplos, o algoritmo realiza uma abstração que permite distinguir novas unidades terminológicas em novos textos. A avaliação de desempenho deste algoritmo em termos de precisão e cobertura demonstra qualidade suficiente para ser útil no processamento de terminologia. a principal vantagem da nossa proposta é a sua fácil adaptação a novas línguas e domínios de especialidade, tornando uma ferramenta adequada para línguas com poucos recursos.Downloads
Não há dados estatísticos.
Downloads
Publicado
2011-06-08
Edição
Seção
Artículos Sección Libre