Método de normalização de sintagmas nominais na indexação automática

Renato Fernandes Corrêa; Victor Galvão Celerino

doi:10.19132/1808-5245251.321-344

Autores

Renato Fernandes Corrêa Universidade Federal de Pernambuco http://orcid.org/0000-0002-9880-8678
Victor Galvão Celerino Universidade Federal de Pernambuco

DOI:

https://doi.org/10.19132/1808-5245251.321-344

Palavras-chave:

Indexação automática. Sintagmas nominais. Normalização de sintagmas nominais. Palavras-chave. Tesauro.

Resumo

Propõe e avalia um método de normalização de sintagmas nominais em termos canônicos, que visa contribuir para a melhora qualitativa da indexação automática, evitando a dispersão terminológica e preservando as palavras-chave dos autores, presentes no interior dos sintagmas nominais. A pesquisa é exploratória e empírica, pautada em pesquisa bibliográfica e realização de um experimento em um corpus de artigos científicos da área de Ciência da Informação. O método proposto é constituído por regras e critérios de normalização que obedecem às restrições de preservação da estrutura válida do sintagma nominal e das palavras-chave. O método proposto é avaliado através da presença de termos do Tesauro Brasileiro em Ciência da Informação (TBCI) nos sintagmas nominais resultantes da aplicação das regras e critérios. O método consiste em duas etapas: a primeira é composta por 85 regras para minimizar os sintagmas nominais extensos; a segunda etapa é composta por sete critérios responsáveis por eliminar dos sintagmas nominais elementos gramaticais desnecessários em sua estrutura. Os resultados da avaliação indicam que o método de normalização permite o alcance de resultados positivos, mesmo com dois critérios da segunda etapa não apresentando resultados para o corpus utilizado. Conclui-se que a aplicação do método de normalização em sistema de indexação automática é viável e traz bons resultados.

Downloads

Não há dados estatísticos.

Biografia do Autor

Renato Fernandes Corrêa, Universidade Federal de Pernambuco

Doutor em Ciência da Computação. Docente no Programa de Pós-Graduação em Ciência da Informação da UFPE.

Victor Galvão Celerino, Universidade Federal de Pernambuco

Mestre em Ciência da Informação. Universidade Federal de Pernambuco.

Referências

BORGES, G. S. B. Indexação automática de documentos textuais: proposta de critérios essenciais. 2009. Dissertação (Mestrado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2009.

COELHO, F. C. et al. PyPLN: a distributed platform for natural language processing. ArXiv e-prints, [s.l.], v. 2, arXiv:1301.7738, p. 1-8, Feb. 2013.

CORRÊA, R. et al. Indexação e recuperação de teses e dissertações por meio de sintagmas nominais. AtoZ, Curitiba, v. 1, n. 1, p. 11-22, jan./jun. 2011.

CORRÊA, R. F.; LAPA, R. C. Panorama de estudos sobre indexação automática no âmbito da ciência da informação no Brasil (1973-2012). Ciência da Informação, Brasília, v. 42, n. 2, p.255-273, maio/ago. 2013.

CORRÊA, R. F.; BAZÍLIO, L. H. T. Análise da extração de descritores como sintagmas nominais através do software OGMA. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 22, n. 50, p. 44-58, set. 2017.

EDMUNDSON, H. P. New methods in automatic extracting. Journal of the Association for Computing Machinery, New York, v. 16, n. 2, p. 264- 285, Apr. 1969.

GARVIN, P. L. et al. Some opinions concerning linguistics and reformation processing. Washington: Center for Applied Linguistics, 1969.

GIL LEIVA, I. La automatización de la indización, propuesta teórico-metodológica: aplicación al área de biblioteconomía y documentación. 1997. Tese (Doutorado em Informação e Documentação) - Universidad de Murcia, Murcia, 1997.

KURAMOTO, H. Sintagmas Nominais: uma nova proposta para a recuperação de informação. DataGramaZero: Revista de Ciência da Informação, Brasília v. 3, n. 1, 9 p., fev. 2002.

KURAMOTO, H. Uma abordagem alternativa para o tratamento e a recuperação de informação textual: os sintagmas nominais. Ciência da Informação, Brasília, v. 25, n. 2, p. 1-18, 1995.

LE GUERN, M. Un analyseur morpho-syntaxique pour l'indexation automatique. Le Français Moderne, Paris, v. 59, n. 1, p. 22-35, juin 1991.

LOPES, L. Extração automática de conceitos a partir de textos em língua portuguesa. 2012. Tese (Doutorado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.

LUKE. [S.l.]: GitHub, 2018. Disponível em: https://github.com/DmitryKey/luke. Acesso em: 23 nov. 2018.

MAIA, L. C. G. Uso de Sintagmas Nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, Belo Horizonte, 2008.

MAIA, L. C. G.; SOUZA, R. R. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da informação, v. 15, n. 1, p. 154-172, jan./abr. 2010.

MARTINS, A. L. O uso do sintagma nominal na recuperação de documentos [manuscrito]: proposta de um mecanismo automático para classificação temática de textos digitais. 2014. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, Belo Horizonte, 2014.

MIORELLI, S. T. Extração do sintagma nominal em sentenças em português. 2001. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2001.

NASCIMENTO, G. D. do. Dos sintagmas nominais aos descritores documentais: estudo de caso na indexação de teses e dissertações da área de direito. 2015. Dissertação (Mestrado em Ciência da Informação) - Departamento de Ciência da Informação, Universidade Federal de Pernambuco, Recife, 2015.

NASCIMENTO, G. D. do; CORREA, R. F. Avaliação de critérios para seleção de sintagmas nominais com valor para a recuperação da informação. Transinformação, Campinas , v. 30, n. 2, p. 179-192, ago. 2018.

PERINI, M. A. Gramática descritiva do português. 4. ed. São Paulo: Ática, 2005.

SALTON, G.; MCGILL, M. J. Introduction to modern information retrieval. New York: McGraw-Hill, 1983.

SANTOS, C. N. dos. Aprendizado de máquina na identificação de sintagmas nominais: o caso do português brasileiro. 2005. Dissertação (Mestrado em Sistemas e Computação) - Instituto Militar de Engenharia, Rio de Janeiro, 2005.

SILVA, T. J. da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014. Dissertação (Mestrado em Ciência da Informação) - Departamento de Ciência da Informação, Universidade Federal de Pernambuco, Recife, 2014.

SILVA, T. J.; CORRÊA, R. F. Ferramentas para indexação automática: uma análise comparativa entre o ogma, parser palavras, lx-parser e a extração manual de sintagmas nominais. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 16., 2015, João Pessoa. Anais... João Pessoa: UFPB, 2015.

SOUZA, R. R. Uma proposta de metodologia para escolha automática de descritores utilizando sintagmas nominais. 2005. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2005.

SOUZA, R. R.; RAGHAVAN, K. S. A methodology for noun phrase-based automatic indexing. Knowledge Organization, Würzburg, v. 33, n. 1, p. 45-56, 2006

SOUZA, R. R.; RAGHAVAN, K. S. A extração de palavras-chave a partir de textos: um estudo exploratório utilizando sintagmas. Informação & Tecnologia, Marília, v. 1, n. 1, p. 5-16, 2014.

VIEIRA, S. B. Indexação automática e manual: revisão de literatura. Ciência da Informação, Brasília, v. 17, n. 1, p. 43-57, jan./jun. 1988.