Método de normalização de sintagmas nominais na indexação automática
DOI:
https://doi.org/10.19132/1808-5245251.321-344Palavras-chave:
Indexação automática. Sintagmas nominais. Normalização de sintagmas nominais. Palavras-chave. Tesauro.Resumo
Propõe e avalia um método de normalização de sintagmas nominais em termos canônicos, que visa contribuir para a melhora qualitativa da indexação automática, evitando a dispersão terminológica e preservando as palavras-chave dos autores, presentes no interior dos sintagmas nominais. A pesquisa é exploratória e empírica, pautada em pesquisa bibliográfica e realização de um experimento em um corpus de artigos científicos da área de Ciência da Informação. O método proposto é constituído por regras e critérios de normalização que obedecem às restrições de preservação da estrutura válida do sintagma nominal e das palavras-chave. O método proposto é avaliado através da presença de termos do Tesauro Brasileiro em Ciência da Informação (TBCI) nos sintagmas nominais resultantes da aplicação das regras e critérios. O método consiste em duas etapas: a primeira é composta por 85 regras para minimizar os sintagmas nominais extensos; a segunda etapa é composta por sete critérios responsáveis por eliminar dos sintagmas nominais elementos gramaticais desnecessários em sua estrutura. Os resultados da avaliação indicam que o método de normalização permite o alcance de resultados positivos, mesmo com dois critérios da segunda etapa não apresentando resultados para o corpus utilizado. Conclui-se que a aplicação do método de normalização em sistema de indexação automática é viável e traz bons resultados.
Downloads
Referências
BORGES, G. S. B. Indexação automática de documentos textuais: proposta de critérios essenciais. 2009. Dissertação (Mestrado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2009.
COELHO, F. C. et al. PyPLN: a distributed platform for natural language processing. ArXiv e-prints, [s.l.], v. 2, arXiv:1301.7738, p. 1-8, Feb. 2013.
CORRÊA, R. et al. Indexação e recuperação de teses e dissertações por meio de sintagmas nominais. AtoZ, Curitiba, v. 1, n. 1, p. 11-22, jan./jun. 2011.
CORRÊA, R. F.; LAPA, R. C. Panorama de estudos sobre indexação automática no âmbito da ciência da informação no Brasil (1973-2012). Ciência da Informação, Brasília, v. 42, n. 2, p.255-273, maio/ago. 2013.
CORRÊA, R. F.; BAZÍLIO, L. H. T. Análise da extração de descritores como sintagmas nominais através do software OGMA. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 22, n. 50, p. 44-58, set. 2017.
EDMUNDSON, H. P. New methods in automatic extracting. Journal of the Association for Computing Machinery, New York, v. 16, n. 2, p. 264- 285, Apr. 1969.
GARVIN, P. L. et al. Some opinions concerning linguistics and reformation processing. Washington: Center for Applied Linguistics, 1969.
GIL LEIVA, I. La automatización de la indización, propuesta teórico-metodológica: aplicación al área de biblioteconomía y documentación. 1997. Tese (Doutorado em Informação e Documentação) - Universidad de Murcia, Murcia, 1997.
KURAMOTO, H. Sintagmas Nominais: uma nova proposta para a recuperação de informação. DataGramaZero: Revista de Ciência da Informação, Brasília v. 3, n. 1, 9 p., fev. 2002.
KURAMOTO, H. Uma abordagem alternativa para o tratamento e a recuperação de informação textual: os sintagmas nominais. Ciência da Informação, Brasília, v. 25, n. 2, p. 1-18, 1995.
LE GUERN, M. Un analyseur morpho-syntaxique pour l'indexation automatique. Le Français Moderne, Paris, v. 59, n. 1, p. 22-35, juin 1991.
LOPES, L. Extração automática de conceitos a partir de textos em língua portuguesa. 2012. Tese (Doutorado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.
LUKE. [S.l.]: GitHub, 2018. Disponível em: https://github.com/DmitryKey/luke. Acesso em: 23 nov. 2018.
MAIA, L. C. G. Uso de Sintagmas Nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, Belo Horizonte, 2008.
MAIA, L. C. G.; SOUZA, R. R. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da informação, v. 15, n. 1, p. 154-172, jan./abr. 2010.
MARTINS, A. L. O uso do sintagma nominal na recuperação de documentos [manuscrito]: proposta de um mecanismo automático para classificação temática de textos digitais. 2014. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, Belo Horizonte, 2014.
MIORELLI, S. T. Extração do sintagma nominal em sentenças em português. 2001. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2001.
NASCIMENTO, G. D. do. Dos sintagmas nominais aos descritores documentais: estudo de caso na indexação de teses e dissertações da área de direito. 2015. Dissertação (Mestrado em Ciência da Informação) - Departamento de Ciência da Informação, Universidade Federal de Pernambuco, Recife, 2015.
NASCIMENTO, G. D. do; CORREA, R. F. Avaliação de critérios para seleção de sintagmas nominais com valor para a recuperação da informação. Transinformação, Campinas , v. 30, n. 2, p. 179-192, ago. 2018.
PERINI, M. A. Gramática descritiva do português. 4. ed. São Paulo: Ática, 2005.
SALTON, G.; MCGILL, M. J. Introduction to modern information retrieval. New York: McGraw-Hill, 1983.
SANTOS, C. N. dos. Aprendizado de máquina na identificação de sintagmas nominais: o caso do português brasileiro. 2005. Dissertação (Mestrado em Sistemas e Computação) - Instituto Militar de Engenharia, Rio de Janeiro, 2005.
SILVA, T. J. da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014. Dissertação (Mestrado em Ciência da Informação) - Departamento de Ciência da Informação, Universidade Federal de Pernambuco, Recife, 2014.
SILVA, T. J.; CORRÊA, R. F. Ferramentas para indexação automática: uma análise comparativa entre o ogma, parser palavras, lx-parser e a extração manual de sintagmas nominais. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 16., 2015, João Pessoa. Anais... João Pessoa: UFPB, 2015.
SOUZA, R. R. Uma proposta de metodologia para escolha automática de descritores utilizando sintagmas nominais. 2005. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2005.
SOUZA, R. R.; RAGHAVAN, K. S. A methodology for noun phrase-based automatic indexing. Knowledge Organization, Würzburg, v. 33, n. 1, p. 45-56, 2006
SOUZA, R. R.; RAGHAVAN, K. S. A extração de palavras-chave a partir de textos: um estudo exploratório utilizando sintagmas. Informação & Tecnologia, Marília, v. 1, n. 1, p. 5-16, 2014.
VIEIRA, S. B. Indexação automática e manual: revisão de literatura. Ciência da Informação, Brasília, v. 17, n. 1, p. 43-57, jan./jun. 1988.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2018 Renato Fernandes Corrêa, Victor Galvão Celerino

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos:
Autores mantêm os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho licenciado sob a Licença Creative Commons Attribution (CC BY 4.0), que permite o compartilhamento do trabalho com reconhecimento da autoria.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não exclusiva da versão do trabalho publicada nesta revista, como publicar em repositório institucional, com reconhecimento de autoria e publicação inicial nesta revista.
Os artigos são de acesso aberto e uso gratuito. De acordo com a licença, deve-se dar o crédito apropriado, prover um link para a licença e indicar se mudanças foram feitas. Não é permitido aplicar termos jurídicos ou medidas de caráter tecnológico que restrinjam legalmente outros de fazerem algo que a licença permita.