Mapeamento de conhecimento científico: modelagem de tópicos das teses e dissertações do Programa de Pós-Graduação em Ciência da Informação da UFMG

Marcos de Souza; Renato Rocha Souza

doi:10.19132/1808-5245273.228-250

Autores

Marcos de Souza Universidade Federal de Minas Gerais, MG, Brasil. http://orcid.org/0000-0002-9829-7249
Renato Rocha Souza Fundação Getúlio Vargas, Rio de Janeiro, RJ, Brasil / Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brasil http://orcid.org/0000-0002-1895-3905

DOI:

https://doi.org/10.19132/1808-5245273.228-250

Palavras-chave:

Modelagem de tópicos, Aprendizagem de Máquina, Alocação de Dirichlet Latente, Mapeamento Científico, Ciência da Informação.

Resumo

O uso das ferramentas computacionais tem sido cada vez mais exigido para organizar, recuperar e compreender o crescente volume de dados. A comunicação científica tem contribuído, por meio de trabalhos formais e informais, para esse fenômeno; entretanto, a organização de uma grande coleção de documentos pode se tornar um processo lento e questionável quando realizado sem recursos tecnológicos. A modelagem de tópicos, por meio de algoritmos de aprendizagem de máquina, tem possibilitado organizar e resumir corpora de dados. A problemática da pesquisa é descobrir como se têm apresentado os temas das teses e dissertações produzidas pelo Programa de PósGraduação em Ciência da Informação da Universidade Federal de Minas Gerais. Busca-se identificar os tópicos de maior relevância do corpus de dados, constituído por documentos do tipo teses e dissertações desse programa de pósgraduação, assim como os termos de cada tópico e os pesos atribuídos a cada um desses termos. Na modelagem de tópicos, utilizou-se o modelo de alocação de Dirichlet latente, configurado para identificar 6, 8, 10, 12, 14, 16, 18 e 20 tópicos junto ao corpus de dados, o que permitiu realizar o mapeamento científico dos documentos analisados. Os resultados com 14 tópicos foram mais coesos e apresentaram menos ruídos e, por isso, permitiram inferir os nomes dos tópicos de maneira mais segura e estabelecer correlações com as linhas de pesquisa do Programa de Pós-Graduação em Ciência da Informação da Universidade Federal de Minas Gerais.

Downloads

Não há dados estatísticos.

Biografia do Autor

Marcos de Souza, Universidade Federal de Minas Gerais, MG, Brasil.

Pós-graduação stricto sensu (Doutorando) em Gestão e Organização do Conhecimento pela Universidade Federal de Minas Gerais - UFMG na linha de pesquisa em "Gestão & Tecnologia da Informação e Comunicação" com previsão para defesa da tese em julho de 2019; Pós-graduação stricto sensu (Mestrado) em Cogni-ção e Linguagem pela Universidade Estadual do Norte Fluminense Darcy Ribeiro - UENF na linha de pesquisa em Pesquisas Interdiscipli-nares em Comunicação, Educação e Novas Tecnologias da Informação; Pós-graduação lato sensu em: Informática na Educação pelo Instituto Federal do Espírito Santo - IFES; Do-cência do Ensino Superior pelo Centro Univer-sitário São Camilo - Espírito Santo - CeUSC; Desenvolvimento de Aplicação para WEB pelo Centro de Ensino Superior de Juiz de Fora – CESJF e; Graduado em Sistemas de Informação pelo Centro Universitário São Camilo - Espíri-to Santo – CeUSC.

Renato Rocha Souza, Fundação Getúlio Vargas, Rio de Janeiro, RJ, Brasil / Universidade Federal de Minas Gerais, Belo Horizonte, MG, Brasil

Pós-Doutorado pela Österreichischen Akade-mie der Wissenschaften, OeAW, Austria. Pós-Doutorado pela Columbia University, COLUMBIA, Estados Unidos. Pós-Doutorado pela University of South Wales, SOUTHWALES, Gales. Pós-graduação stricto sensu (Doutorado) em Ciências da Informação pela Universidade Federal de Minas Gerais – UFMG; Pós-graduação stricto sensu (Mestrado) em Engenharia de Produção pela Universidade Federal de Santa Catarina – UFSC; Pós-graduação lato sensu em Informática na Edu-cação pela Pontifícia Universidade Católica de Minas Gerais – PUC-Minas e; Graduação em Engenharia Elétrica pela Pontifícia Universi-dade Católica do Rio de Janeiro - PUC-Rio.

Professor do departamento de Matemática Aplicada da Fundação Getúlio Vargas / Professor do programa de pós-graduação em Gestão e Organização do Conhecimento da Escola de Ciência da Informação da Universidade Federal de Minas Gerais. Doutor em Ciência da Informação pela Universidade Federal de Minas Gerais.

Referências

AYODELE, Taiwo Oladipupo. Types of Machine Learning Algorithms. New Advances in Machine Learning, [S.l.]: InTech, 2010. p. 19-48

BLEI, David M. Probabilistic topic models. Communications of the ACM, [S.l.], v. 55, n. 4, p. 77–84, 1 abr. 2012.

BLEI, David M.; NG, Andrew Y; JORDAN, Michael I. Latent Dirichlet Allocation. Journal of Machine Learning Research, [S.l.], v. 3, p. 993-1022, 2003.

BORKO, Harold. Information science: what is it? American Documentation, p. 5, 1968.

BRASIL. Lei n. 12.527, de 18 de novembro de 2011. Regula o acesso a informações previsto no inciso XXXIII do art. 5º... Diário Oficial [da] União, Brasília, 18 nev. 2011. Edição extra.

CAPURRO, Rafael; HJORLAND, Birger. O conceito de informação. Perspectivas em Ciência da Informação, [S.l.], v. 12, n. 1, p. 148-207, 2007.

CHANEY, Allison J. B.; BLEI, David M. Visualizing Topic Models. ICWSM, 2012.

GIL, Antonio Carlos. Como elaborar projetos de pesquisa. 5. ed. São Paulo - SP: Atlas, 2010.

GRUS, Joel. Data Science do zero: primeiras regras com Pythhon. Rio de Janeiro - RJ: Alta Books, 2016.

HOFMANN, Thomas. Probabilistic Latent Semantic Indexing. 1999.

KASZUBOWSKI, Erikson. Modelo de tópicos para associações livres. 2016. 213 f. Universidade Federal de Santa Catarina, 2016.

LE COADIC, Yves-François. A ciência da informação. Tradução Maria Yêda Falcão Soares de Filgueiras Gomes. Brasília: Briquet de Lemos, 1996.

MCKINNEY, Wes. Python para análise de dados: tratamento de dados com pandas, numpy e ipython. São Paulo - SP: Novatec, 2018.

NHACUONGUE, Januário Albino; FERNEDA, Edberto. O campo da ciência da informação: contribuições, desafios e perspectivas. Perspectivas em Ciência da Informação, [S.l.], v. 20, n. 2, p. 3-18, 2015.

PINHEIRO, Lena Vania Ribeiro. A Ciência da Informação entre sombra e luz: domínio epistemológico e campo interdisciplinar. 1997. 278 f. Tese (Doutorado em Comunicação) - Universidade Federal do Rio de Janeiro, Rio de Janeiro, 1997.

PPGCI. Programa de Pós-graduação em Ciência da Informação: Apresentação. 201?a. Disponível em: https://web.archive.org/web/20210312181856/http://ppgci.eci.ufmg.br/apresentacao/. Acesso em: 15 maio 2020.

PPGCI. Programa de Pós-graduação em Ciência da Informação: Histórico/cronologia. 201?b. Disponível em: https://web.archive.org/web/20210312182603/http://ppgci.eci.ufmg.br/historicocronologia/. Acesso em: 15 maio 2020.

PUSTEJOVSKY, James; STUBBS, Amber. Natural language annotation for machine learning: A guide to corpus-building for applications. O’Reilly Media, Inc, 2012.

RUSSO, Mariza. Fundamentos de biblioteconomia e Ciência da Informação. Editora E-papers, 2010.

SANTOS, Fabiano Fernandes dos. Extração de tópicos baseado em agrupamento de regras de associação. 2015. 157 f. Tese (Doutorado em Ciências de Computação e Matemática Computacional) - Universidade de São Paulo, São Carlos, 2015.

SARACEVIC, Tefko. Ciência da informação: origem, evolução e relações. Perspectiva em Ciência da Informação, [S.l.], v. 1, n. 1, p. 41-62, 1996.

SHERA, Jesse Hauk; CLEVELAND, Donald B. History and foundations of Information Science. Annual Review of Information Science and Technology, [S.l.], v. 12, p. 249–275, 1977.

STEYVERS, Mark; GRIFFITHS, Tom. Probabilistic topic models. Handbook of latent semantic analysis. [S.l.]: Lawrence Erlbaum Associates, Inc, 2007. p. 424–440.

SUKKARIEH, Jana Z.; PULMAN, Stephen G.; RAIKES, Nicholas. Auto-marking: using computational linguistics to score short, free text responses. Paper presented at the 29th annual conference. In: of the International Association for Educational Assessment (IAEA). 2003.