Un experimento de extracción de terminología utilizando algoritmos estadísticos supervisados

Autores

  • Rogelio Nazar Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra
  • María Teresa Cabré IULATERM, Universidad Pompeu Fabra, Barcelona

Palavras-chave:

Extração de Terminologia, Análise Estatística de Textos Especializados, Aprendizado de Máquina, Terminografia Computacional, Conhecimento Implícito

Resumo

Este artigo descreve uma metodologia para a extração automática de candidatos a termos baseada em técnicas de análise estatística de textos. Diferentemente da maioria dos extratores de terminologia que aparecem na literatura sobre o assunto, a nossa proposta não integra qualquer conhecimento explícito sobre a língua ou o domínio  que está sendo analisado. Este algoritmo extrai as informações diretamente  dos dados analisados, por meio de  uma fase de treinamento na qual um usuário “ensina” os exemplos de unidades terminológicas (uma lista de termos validados) e unidades não terminológicas (uma coleção de textos não especializados). A partir destes exemplos, o algoritmo realiza uma abstração que permite distinguir novas unidades terminológicas em novos textos. A avaliação de desempenho deste algoritmo em termos de precisão e cobertura demonstra qualidade suficiente para ser útil no processamento de terminologia. a principal vantagem da nossa proposta é a sua fácil adaptação a novas línguas e domínios de especialidade, tornando uma ferramenta adequada para línguas com poucos recursos.

Downloads

Não há dados estatísticos.

Biografia do Autor

Rogelio Nazar, Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra

Investigación y desarrollo en el área de lingüística computacional dentro del Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra.

Publicado

2011-06-08

Edição

Seção

Artículos Sección Libre