Comparação entre abordagens escaláveis para o processamento de conjuntos de dados textuais

Gustavo de Paula Avelar; Murilo Coelho Naldi

doi:10.22456/2175-2745.65827

Authors

Gustavo de Paula Avelar Universidade Federal de Viçosa - Campus Rio Paranaíba http://orcid.org/0000-0002-6208-6159
Murilo Coelho Naldi Departamento de Computação, Universidade Federal de São Carlos, Rod. Washington Luís - Km 235 Caixa Postal 676, CEP 13565-905, São Carlos-SP

DOI:

https://doi.org/10.22456/2175-2745.65827

Abstract

DataAnalyticséumconceitovoltadoaanálisedegrandesquantidades de dados em busca de padrões e informações relevantes. A manipulação desses da- dos é complexa e exige métodos automáticos capazes de processar grandes volumes de dados exigindo poder computacional para obtenção de informações em tempo há- bil. O modelo de programação MapReduce surgiu para auxiliar a distribuição desses problemas entre várias máquinas, melhorando a eficiência em seu processamento. As plataformas Apache Hadoop e Spark possibilitam a utilização deste paradigma em ambientes de hardware commodities. O agrupamento de dados tem como objetivo determinar um conjunto finito de categorias para descrever um conjunto de dados de acordo com as características similares dos objetos do conjunto de dados. Diferen- tes estratégias para pré-processamento influenciam os resultados da etapa de agrupa- mento de dados. Deste modo, este trabalho trata do estudo de diferentes métodos de pré-processamento de documentos textuais, visando alcançar representações que pro- porcionem bons resultados à etapa de agrupamento. Nele, propomos uma abordagem para seleção de atributos embasado no algoritmo Latent Dirichlet Allocation (LDA).