Standardisation method of noun phrases for automatic indexing
DOI:
https://doi.org/10.19132/1808-5245251.321-344Keywords:
Automatic indexing. Noun phrases. Standardisation of noun phrases. Keywords. Thesaurus.Abstract
This work proposes and evaluates a method of standardisation of
noun phrases in canonical terms. This procedure aims to contribute to the
qualitative improvement of automatic indexing avoiding the terminological
dispersion and preserving the keywords present within the noun phrases. The
research is exploratory and empirical, based on bibliographic research and an
experiment in a corpus composed of scientific articles in Information Science.
The proposed standardisation method contains rules and criteria that follow the
constraints of preserving the valid structure of the noun phrase and the
keywords. The method evaluation consists of the analysis of the presence of
terms of the Brazilian Thesaurus in Information Science (TBCI) in the noun
phrases resulting from the application of the proposed rules and criteria. The
method consists of two stages: the first consists of 85 rules to reduce the size of
the noun phrases, and the second stage contains seven criteria responsible for
eliminating unnecessary grammatical elements from the noun phrases. The
results of the evaluation indicate that the proposed method allows the
achievement of positive results, even with two criteria of the second stage not
presenting results for the corpus. It concludes that the application of the method
in automatic indexing system is feasible and brings good results.
Downloads
References
BORGES, G. S. B. Indexação automática de documentos textuais: proposta de critérios essenciais. 2009. Dissertação (Mestrado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2009.
COELHO, F. C. et al. PyPLN: a distributed platform for natural language processing. ArXiv e-prints, [s.l.], v. 2, arXiv:1301.7738, p. 1-8, Feb. 2013.
CORRÊA, R. et al. Indexação e recuperação de teses e dissertações por meio de sintagmas nominais. AtoZ, Curitiba, v. 1, n. 1, p. 11-22, jan./jun. 2011.
CORRÊA, R. F.; LAPA, R. C. Panorama de estudos sobre indexação automática no âmbito da ciência da informação no Brasil (1973-2012). Ciência da Informação, Brasília, v. 42, n. 2, p.255-273, maio/ago. 2013.
CORRÊA, R. F.; BAZÍLIO, L. H. T. Análise da extração de descritores como sintagmas nominais através do software OGMA. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, Florianópolis, v. 22, n. 50, p. 44-58, set. 2017.
EDMUNDSON, H. P. New methods in automatic extracting. Journal of the Association for Computing Machinery, New York, v. 16, n. 2, p. 264- 285, Apr. 1969.
GARVIN, P. L. et al. Some opinions concerning linguistics and reformation processing. Washington: Center for Applied Linguistics, 1969.
GIL LEIVA, I. La automatización de la indización, propuesta teórico-metodológica: aplicación al área de biblioteconomía y documentación. 1997. Tese (Doutorado em Informação e Documentação) - Universidad de Murcia, Murcia, 1997.
KURAMOTO, H. Sintagmas Nominais: uma nova proposta para a recuperação de informação. DataGramaZero: Revista de Ciência da Informação, Brasília v. 3, n. 1, 9 p., fev. 2002.
KURAMOTO, H. Uma abordagem alternativa para o tratamento e a recuperação de informação textual: os sintagmas nominais. Ciência da Informação, Brasília, v. 25, n. 2, p. 1-18, 1995.
LE GUERN, M. Un analyseur morpho-syntaxique pour l'indexation automatique. Le Français Moderne, Paris, v. 59, n. 1, p. 22-35, juin 1991.
LOPES, L. Extração automática de conceitos a partir de textos em língua portuguesa. 2012. Tese (Doutorado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.
LUKE. [S.l.]: GitHub, 2018. Disponível em: https://github.com/DmitryKey/luke. Acesso em: 23 nov. 2018.
MAIA, L. C. G. Uso de Sintagmas Nominais na classificação automática de documentos eletrônicos. 2008. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, Belo Horizonte, 2008.
MAIA, L. C. G.; SOUZA, R. R. Uso de sintagmas nominais na classificação automática de documentos eletrônicos. Perspectivas em Ciência da informação, v. 15, n. 1, p. 154-172, jan./abr. 2010.
MARTINS, A. L. O uso do sintagma nominal na recuperação de documentos [manuscrito]: proposta de um mecanismo automático para classificação temática de textos digitais. 2014. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais Minas Gerais, Belo Horizonte, 2014.
MIORELLI, S. T. Extração do sintagma nominal em sentenças em português. 2001. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2001.
NASCIMENTO, G. D. do. Dos sintagmas nominais aos descritores documentais: estudo de caso na indexação de teses e dissertações da área de direito. 2015. Dissertação (Mestrado em Ciência da Informação) - Departamento de Ciência da Informação, Universidade Federal de Pernambuco, Recife, 2015.
NASCIMENTO, G. D. do; CORREA, R. F. Avaliação de critérios para seleção de sintagmas nominais com valor para a recuperação da informação. Transinformação, Campinas , v. 30, n. 2, p. 179-192, ago. 2018.
PERINI, M. A. Gramática descritiva do português. 4. ed. São Paulo: Ática, 2005.
SALTON, G.; MCGILL, M. J. Introduction to modern information retrieval. New York: McGraw-Hill, 1983.
SANTOS, C. N. dos. Aprendizado de máquina na identificação de sintagmas nominais: o caso do português brasileiro. 2005. Dissertação (Mestrado em Sistemas e Computação) - Instituto Militar de Engenharia, Rio de Janeiro, 2005.
SILVA, T. J. da. Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa. 2014. Dissertação (Mestrado em Ciência da Informação) - Departamento de Ciência da Informação, Universidade Federal de Pernambuco, Recife, 2014.
SILVA, T. J.; CORRÊA, R. F. Ferramentas para indexação automática: uma análise comparativa entre o ogma, parser palavras, lx-parser e a extração manual de sintagmas nominais. In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 16., 2015, João Pessoa. Anais... João Pessoa: UFPB, 2015.
SOUZA, R. R. Uma proposta de metodologia para escolha automática de descritores utilizando sintagmas nominais. 2005. Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2005.
SOUZA, R. R.; RAGHAVAN, K. S. A methodology for noun phrase-based automatic indexing. Knowledge Organization, Würzburg, v. 33, n. 1, p. 45-56, 2006
SOUZA, R. R.; RAGHAVAN, K. S. A extração de palavras-chave a partir de textos: um estudo exploratório utilizando sintagmas. Informação & Tecnologia, Marília, v. 1, n. 1, p. 5-16, 2014.
VIEIRA, S. B. Indexação automática e manual: revisão de literatura. Ciência da Informação, Brasília, v. 17, n. 1, p. 43-57, jan./jun. 1988.
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2018 Em Questão

This work is licensed under a Creative Commons Attribution 4.0 International License.
Authors who publish with this journal agree to the following terms:
Authors will keep their copyright and grant the journal with the right of first publication, the work licensed under License Creative Commons Attribution (CC BY 4.0), which allows for the sharing of work and the recognition of authorship.
Authors can take on additional contracts separately for non-exclusive distribution of the version of the work published in this journal, such as publishing in an institutional repository, acknowledging its initial publication in this journal.
The articles are open access and free. In accordance with the license, you must give appropriate credit, provide a link to the license, and indicate if changes were made. You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits.