CluWords: Explorando Clusters Semânticos entre Palavras para Aprimorar Modelagem de Tópicos

Autores

  • Christian Reis Fagundes Gomes Universidade Federal de Minas Gerais
  • Felipe Augusto Resende Viegas Universidade Federal de Minas Gerais
  • Washington Luiz Miranda da Cunha Universidade Federal de Minas Gerais
  • Leonardo Chaves Dutra da Rocha Universidade Federal de São João del-Rei

Palavras-chave:

Processamento de Linguagem Natural, Machine Learning, Text Classification

Resumo

Neste trabalho avançamos o estado-da-arte na modelagem de tópicos por meio de uma nova representação de documentos baseada em word embeddings pré-treinados para fatoração de matriz não-probabilística. Nossa estratégia, chamada CluWords, explora as palavras mais próximas em um determinado espaço word embedding pré-treinado para gerar meta-palavras que são capazes de melhorar a representação de documentos, tanto em termos de informações sintáticas quanto semânticas. Em nossa avaliação, considerando 12 bases de dados e 8 linhas de base, obtivemos melhoras na maioria dos casos, com ganhos de mais de 50%. Nosso método também é capaz de melhorar representação dos documentos para a tarefa de classificação automática.

Downloads

Não há dados estatísticos.

Biografia do Autor

Christian Reis Fagundes Gomes, Universidade Federal de Minas Gerais

Departamento de Ciência da Computação. Mestrado em Ciência da Computação na área de Machine Learning.

Felipe Augusto Resende Viegas, Universidade Federal de Minas Gerais

Departamento de Ciência da Computação. Mestrado em Ciência da Computação na área de Machine Learning.

Washington Luiz Miranda da Cunha, Universidade Federal de Minas Gerais

Departamento de Ciência da Computação. Mestrado em Ciência da Computação na área de Machine Learning.

Leonardo Chaves Dutra da Rocha, Universidade Federal de São João del-Rei

Departamento de Ciência da Computação. Doutor em Ciência da Computação.

Downloads

Publicado

2019-06-17