Comparação entre abordagens escaláveis para o processamento de conjuntos de dados textuais

Authors

  • Gustavo de Paula Avelar Universidade Federal de Viçosa - Campus Rio Paranaíba http://orcid.org/0000-0002-6208-6159
  • Murilo Coelho Naldi Departamento de Computação, Universidade Federal de São Carlos, Rod. Washington Luís - Km 235 Caixa Postal 676, CEP 13565-905, São Carlos-SP

DOI:

https://doi.org/10.22456/2175-2745.65827

Abstract

DataAnalyticséumconceitovoltadoaanálisedegrandesquantidades de dados em busca de padrões e informações relevantes. A manipulação desses da- dos é complexa e exige métodos automáticos capazes de processar grandes volumes de dados exigindo poder computacional para obtenção de informações em tempo há- bil. O modelo de programação MapReduce surgiu para auxiliar a distribuição desses problemas entre várias máquinas, melhorando a eficiência em seu processamento. As plataformas Apache Hadoop e Spark possibilitam a utilização deste paradigma em ambientes de hardware commodities. O agrupamento de dados tem como objetivo determinar um conjunto finito de categorias para descrever um conjunto de dados de acordo com as características similares dos objetos do conjunto de dados. Diferen- tes estratégias para pré-processamento influenciam os resultados da etapa de agrupa- mento de dados. Deste modo, este trabalho trata do estudo de diferentes métodos de pré-processamento de documentos textuais, visando alcançar representações que pro- porcionem bons resultados à etapa de agrupamento. Nele, propomos uma abordagem para seleção de atributos embasado no algoritmo Latent Dirichlet Allocation (LDA). 

Downloads

Download data is not yet available.

Author Biography

Gustavo de Paula Avelar, Universidade Federal de Viçosa - Campus Rio Paranaíba

Instituto de Ciências Exatas e Tecnológicas

Sistemas de Informação

Published

2017-08-02

How to Cite

Avelar, G. de P., & Naldi, M. C. (2017). Comparação entre abordagens escaláveis para o processamento de conjuntos de dados textuais. Revista De Informática Teórica E Aplicada, 24(1), 121–149. https://doi.org/10.22456/2175-2745.65827

Issue

Section

Regular Papers

Most read articles by the same author(s)