Comparação entre abordagens escaláveis para o processamento de conjuntos de dados textuais

Gustavo de Paula Avelar, Murilo Coelho Naldi

Resumo


DataAnalyticséumconceitovoltadoaanálisedegrandesquantidades de dados em busca de padrões e informações relevantes. A manipulação desses da- dos é complexa e exige métodos automáticos capazes de processar grandes volumes de dados exigindo poder computacional para obtenção de informações em tempo há- bil. O modelo de programação MapReduce surgiu para auxiliar a distribuição desses problemas entre várias máquinas, melhorando a eficiência em seu processamento. As plataformas Apache Hadoop e Spark possibilitam a utilização deste paradigma em ambientes de hardware commodities. O agrupamento de dados tem como objetivo determinar um conjunto finito de categorias para descrever um conjunto de dados de acordo com as características similares dos objetos do conjunto de dados. Diferen- tes estratégias para pré-processamento influenciam os resultados da etapa de agrupa- mento de dados. Deste modo, este trabalho trata do estudo de diferentes métodos de pré-processamento de documentos textuais, visando alcançar representações que pro- porcionem bons resultados à etapa de agrupamento. Nele, propomos uma abordagem para seleção de atributos embasado no algoritmo Latent Dirichlet Allocation (LDA). 


Texto completo:

PDF