Standardisation method of noun phrases for automatic indexing

Authors

  • Renato Fernandes Corrêa Universidade Federal de Pernambuco http://orcid.org/0000-0002-9880-8678
  • Victor Galvão Celerino Universidade Federal de Pernambuco

DOI:

https://doi.org/10.19132/1808-5245251.321-344

Keywords:

Automatic indexing. Noun phrases. Standardisation of noun phrases. Keywords. Thesaurus.

Abstract

This work proposes and evaluates a method of standardisation of
noun phrases in canonical terms. This procedure aims to contribute to the
qualitative improvement of automatic indexing avoiding the terminological
dispersion and preserving the keywords present within the noun phrases. The
research is exploratory and empirical, based on bibliographic research and an
experiment in a corpus composed of scientific articles in Information Science.
The proposed standardisation method contains rules and criteria that follow the
constraints of preserving the valid structure of the noun phrase and the
keywords. The method evaluation consists of the analysis of the presence of
terms of the Brazilian Thesaurus in Information Science (TBCI) in the noun
phrases resulting from the application of the proposed rules and criteria. The
method consists of two stages: the first consists of 85 rules to reduce the size of
the noun phrases, and the second stage contains seven criteria responsible for
eliminating unnecessary grammatical elements from the noun phrases. The
results of the evaluation indicate that the proposed method allows the
achievement of positive results, even with two criteria of the second stage not
presenting results for the corpus. It concludes that the application of the method
in automatic indexing system is feasible and brings good results.

Downloads

Download data is not yet available.

Author Biographies

Renato Fernandes Corrêa, Universidade Federal de Pernambuco

Doutor em Ciência da Computação. Docente no Programa de Pós-Graduação em Ciência da Informação da UFPE.

Victor Galvão Celerino, Universidade Federal de Pernambuco

Mestre em Ciência da Informação. Universidade Federal de Pernambuco.

References

BORGES, G. S. B. Indexação automática de documentos textuais: proposta de critérios essenciais. 2009. Dissertação (Mestrado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2009.

COELHO, F. C. et al. PyPLN: a distributed platform for natural language processing. ArXiv e-prints, [s.l.], v. 2, arXiv:1301.7738, p. 1-8, Feb. 2013.

CORRÊA, R. et al. Indexação e recuperação de teses e dissertações por meio de sintagmas nominais. AtoZ, Curitiba, v. 1, n. 1, p. 11-22, jan./jun. 2011.

CORRÊA, R. F.; LAPA, R. C. Panorama de estudos sobre indexação automática no âmbito da ciência da informação no Brasil (1973-2012). Ciência da Informação, Brasília, v. 42, n. 2, p.255-273, maio/ago. 2013.

CORRÊA, R. F.; BAZÍLIO, L. H. T. Análise da extração de descritores como sintagmas nominais através do software OGMA. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 22, n. 50, p. 44-58, set. 2017.

EDMUNDSON, H. P. New methods in automatic extracting. Journal of the Association for Computing Machinery, New York, v. 16, n. 2, p. 264- 285, Apr. 1969.

GARVIN, P. L. et al. Some opinions concerning linguistics and reformation processing. Washington: Center for Applied Linguistics, 1969.

GIL LEIVA, I. La automatización de la indización, propuesta teórico-metodológica: aplicación al área de biblioteconomía y documentación. 1997. Tese (Doutorado em Informação e Documentação) - Universidad de Murcia, Murcia, 1997.

KURAMOTO, H. Sintagmas Nominais: uma nova proposta para a recuperação de informação. DataGramaZero: Revista de Ciência da Informação, Brasília v. 3, n. 1, 9 p., fev. 2002.

KURAMOTO, H. Uma abordagem alternativa para o tratamento e a recuperação de informação textual: os sintagmas nominais. Ciência da Informação, Brasília, v. 25, n. 2, p. 1-18, 1995.

LE GUERN, M. Un analyseur morpho-syntaxique pour l'indexation automatique. Le Français Moderne, Paris, v. 59, n. 1, p. 22-35, juin 1991.

LOPES, L. Extração automática de conceitos a partir de textos em língua portuguesa. 2012. Tese (Doutorado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.

LUKE. [S.l.]: GitHub, 2018. Disponível em: https://github.com/DmitryKey/luke. Acesso em: 23 nov. 2018.

MAIA, L. C. G. Uso de Sintagmas Nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, Belo Horizonte, 2008.

MAIA, L. C. G.; SOUZA, R. R. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da informação, v. 15, n. 1, p. 154-172, jan./abr. 2010.

MARTINS, A. L. O uso do sintagma nominal na recuperação de documentos [manuscrito]: proposta de um mecanismo automático para classificação temática de textos digitais. 2014. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, Belo Horizonte, 2014.

MIORELLI, S. T. Extração do sintagma nominal em sentenças em português. 2001. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2001.

NASCIMENTO, G. D. do. Dos sintagmas nominais aos descritores documentais: estudo de caso na indexação de teses e dissertações da área de direito. 2015. Dissertação (Mestrado em Ciência da Informação) - Departamento de Ciência da Informação, Universidade Federal de Pernambuco, Recife, 2015.

NASCIMENTO, G. D. do; CORREA, R. F. Avaliação de critérios para seleção de sintagmas nominais com valor para a recuperação da informação. Transinformação, Campinas , v. 30, n. 2, p. 179-192, ago. 2018.

PERINI, M. A. Gramática descritiva do português. 4. ed. São Paulo: Ática, 2005.

SALTON, G.; MCGILL, M. J. Introduction to modern information retrieval. New York: McGraw-Hill, 1983.

SANTOS, C. N. dos. Aprendizado de máquina na identificação de sintagmas nominais: o caso do português brasileiro. 2005. Dissertação (Mestrado em Sistemas e Computação) - Instituto Militar de Engenharia, Rio de Janeiro, 2005.

SILVA, T. J. da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014. Dissertação (Mestrado em Ciência da Informação) - Departamento de Ciência da Informação, Universidade Federal de Pernambuco, Recife, 2014.

SILVA, T. J.; CORRÊA, R. F. Ferramentas para indexação automática: uma análise comparativa entre o ogma, parser palavras, lx-parser e a extração manual de sintagmas nominais. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 16., 2015, João Pessoa. Anais... João Pessoa: UFPB, 2015.

SOUZA, R. R. Uma proposta de metodologia para escolha automática de descritores utilizando sintagmas nominais. 2005. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2005.

SOUZA, R. R.; RAGHAVAN, K. S. A methodology for noun phrase-based automatic indexing. Knowledge Organization, Würzburg, v. 33, n. 1, p. 45-56, 2006

SOUZA, R. R.; RAGHAVAN, K. S. A extração de palavras-chave a partir de textos: um estudo exploratório utilizando sintagmas. Informação & Tecnologia, Marília, v. 1, n. 1, p. 5-16, 2014.

VIEIRA, S. B. Indexação automática e manual: revisão de literatura. Ciência da Informação, Brasília, v. 17, n. 1, p. 43-57, jan./jun. 1988.

Published

2019-01-01

How to Cite

CORRÊA, R. F.; CELERINO, V. G. Standardisation method of noun phrases for automatic indexing. Em Questão, Porto Alegre, v. 25, n. 1, p. 321–344, 2019. DOI: 10.19132/1808-5245251.321-344. Disponível em: https://seer.ufrgs.br/index.php/EmQuestao/article/view/81901. Acesso em: 10 may. 2025.

Issue

Section

Article