Un experimento de extracción de terminología utilizando algoritmos estadísticos supervisados

Rogelio Nazar; María Teresa Cabré

Autores/as

Rogelio Nazar Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra
María Teresa Cabré IULATERM, Universidad Pompeu Fabra, Barcelona

Palabras clave:

Extração de Terminologia, Análise Estatística de Textos Especializados, Aprendizado de Máquina, Terminografia Computacional, Conhecimento Implícito

Resumen

Este artigo descreve uma metodologia para a extração automática de candidatos a termos baseada em técnicas de análise estatística de textos. Diferentemente da maioria dos extratores de terminologia que aparecem na literatura sobre o assunto, a nossa proposta não integra qualquer conhecimento explícito sobre a língua ou o domínio que está sendo analisado. Este algoritmo extrai as informações diretamente dos dados analisados, por meio de uma fase de treinamento na qual um usuário “ensina” os exemplos de unidades terminológicas (uma lista de termos validados) e unidades não terminológicas (uma coleção de textos não especializados). A partir destes exemplos, o algoritmo realiza uma abstração que permite distinguir novas unidades terminológicas em novos textos. A avaliação de desempenho deste algoritmo em termos de precisão e cobertura demonstra qualidade suficiente para ser útil no processamento de terminologia. a principal vantagem da nossa proposta é a sua fácil adaptação a novas línguas e domínios de especialidade, tornando uma ferramenta adequada para línguas com poucos recursos.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Rogelio Nazar, Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra

Investigación y desarrollo en el área de lingüística computacional dentro del Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra.

Un experimento de extracción de terminología utilizando algoritmos estadísticos supervisados

Autores/as

Palabras clave:

Resumen

Descargas

Biografía del autor/a

Rogelio Nazar, Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra

Descargas

Publicado

Cómo citar

Número

Sección

Licencia

Desarrollado por

Idioma

Información