Uso de deep learning para a construção de um modelo de recuperação da informação aplicado para o setor de mineração no Brasil
DOI:
https://doi.org/10.1590/1808-5245.30.135550Palavras-chave:
processamento de linguagem natural, deep learning, bert, ats, mineraçãoResumo
Diante do crescimento exponencial de dados e informações, proporcionado por sensores e mídias sociais, um ecossistema composto por novas infraestruturas de armazenamento e processamento, denominado Big Data, foi desenvolvido. Todo esse desenvolvimento redundou em uma nova área do conhecimento, denominada Ciência de Dados. Apesar de haver um ecossistema e uma área do conhecimento para tratar esse bloco massivo de dados e informação, o incomodo da superabundância de dados ainda permanece, e se torna mais expressivo quando as empresas tomam consciência que podem usar zetabytes de dados e informações para direcionarem a estratégia e as operações. Baseado nisso, essa pesquisa buscou desenvolver um método para resumir as notícias do setor de mineração do Brasil, identificando o efeito da similaridade semântica na análise, possibilitando a recuperação da informação e uso em processos de compreensão do setor. Nesse método foi aplicado o transformer BERTSUM para sumarizar as notícias, e após sumarizadas o transformer BERT foi aplicado para medir a similaridade entre as notícias. O método permitiu reduzir em 75% todo o bloco de texto, retirar notícias com o mesmo teor semântico, e deduzir que há um padrão no discurso das notícias relacionadas ao setor de mineração.
Downloads
Referências
ABDEL-SALAM, Shehab; RAFEA, Ahmed. Performance study on extractive text summarization using BERT models. Information, Basel, v. 13, n. 2, p. 67, 2022. Disponível em: https://doi.org/10.3390/info13020067. Acesso em: 27 set. 2022.
ALAMI, Nabil; MEKNASSI, Mohammed; EN-NAHNAHI, Noureddine. Enhancing unsupervised neural networks based text summarization with word embedding and ensemble learning. Expert Systems with Applications, United Kingdom, v. 123, p. 195-211, 2019. Disponível em: https://doi.org/10.1016/j.eswa.2019.01.037. Acesso em: 27 jul. 2021.
AVERSA, Joseph; HERNANDEZ, Tony; DOHERTY, Sean. Incorporating big data within retail organizations: a case study approach. Journal of Retailing and Consumer Services, Amsterdan, v. 60, p. 1-9, 2021. Disponível em: https://doi.org/10.1016/j.jretconser.2021.102447. Acesso em: 6 abr. 2021.
BALDUINI, Marco et al. Models and practices in urban data science at scale. Big Data Research, Amsterdan, v. 17, p. 66-84, 2019. Disponível em: https://doi.org/10.1016/j.bdr.2018.04.003. Acesso em: 6 abr. 2021.
BONDIELLI, Alessandro; MARCELLONI, Francesco. On the use of summarization and transformer architectures for profiling résumés. Expert Systems with Applications, United Kingdom, v. 184, p. 1-10, 2021. Disponível em: https://doi.org/10.1016/j.eswa.2021.115521. Acesso em: 24 nov. 2021.
BRANDS, Kritine. Big data and business intelligence for management accountants. Strategic Finance, New Jersey, v. 95, p. 64-66, 2014.
CHOO, Chun Wei. A organização do conhecimento: como as organizações usam a informação para criar significado, construir conhecimento e tomar decisões. São Paulo: SENAC, 2003.
CHOWDHURY, Gobinda G. Natural language processing. Annual Review of Information Science and Technology, New Jersey, v. 37, n. 1, p. 51-89, 2003. Disponível em: https://doi.org/10.1002/aris.1440370103. Acesso em: 21 mai. 2021.
CHRISTIAN, Hans; AGUS, Mikhael Pramodana; SUHARTONO, Derwin. Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF). ComTech: Computer, Mathematics and Engineering Applications, Jakarta, v. 7, n. 4, p. 285, 2016. Disponível em: https://doi.org/10.21512/comtech.v7i4.3746. Acesso em: 27 jul. 2021.
COPELAND, Michael. What’s the difference between artificial intelligence, machine learning and deep learning? NVIDIA, [s.l.], 19 July 2016.
CRESWELL, John W; CRESWELL, J. David. Research design: qualitative, quantitative, and mixed methods approaches. 4. ed. Thousand Oaks,: Sage, 2014.
DEVLIN, Jacob; CHANG, Ming-Wei; LEE, Kenton; TOUTANOVA, Kristina. BERT: Pre-training of deep bidirectional transformers for language understanding. ArXiv, Ithaca, v. 1, 2018. Disponível em:
https://doi.org/10.48550/arXiv.1810.04805. Acesso em: 11 maio 2021.
DHAR, Vasant. Data science and prediction. Communications of the ACM, New York, v. 56, n. 12, p. 64-73, 2013. Disponível em: https://doi.org/10.1145/2500499. Acesso em: 27 set. 2022.
GOODFELLOW, Ian; BENGIO, Yoshua; COURVILLE, Aaron. Deep learning. Cambridge: MIT Press, 2016.
GOULARTE, Fábio Bif; NASSAR, Silvia Modesto; FILETO, Renato; SAGGION, Horacio. A text summarization method based on fuzzy rules and applicable to automated assessment. Expert Systems with Applications, United Kingdom, v. 115, p. 264-275, 2019. Disponível em: https://doi.org/10.1016/j.eswa.2018.07.047. Acesso em: 16 abr. 2021.
GOULARTE, Fábio Bif; WILGES, Beatriz; NASSAR, Silvia Modesto; CISLAGHI, Renato. Métricas de sumarização automática de texto em tarefas de um ambiente virtual de aprendizagem. Brazilian Symposium on Computers in Education, Porto Alegre, p. 752, 2014. Disponível em: http:doi.org/10.5753/cbie.sbie.2014.752. Acesso em: 16 abr. 2021.
HAMET, Pavel; TREMBLAY, Johanne. Artificial intelligence in medicine. Metabolism, New York, v. 69, p. s36-s40, 2017. Disponível em: https://doi.org/10.1016/j.metabol.2017.01.011. Acesso em: 17 set. 2021.
HARK, Cengiz; KARCI, Ali. Karcı summarization: a simple and effective approach for automatic text summarization using Karcı entropy. Information Processing & Management, United Kingdom, v. 57, n. 3, p. 1-16, 2020. Disponível em: https://doi.org/10.1016/j.ipm.2019.102187. Acesso em: 27 jul. 2021.
JAIN, Priyank; GYANCHANDANI, Manasi; KHARE, Nilay. Big data privacy: a technological perspective and review. Journal of Big Data, Berlin, v. 3, n. 1, p. 25, 2016. Disponível em: http://doi.org/10.1186/s40537-016-0059-y. Acesso em: 6 abr. 2021.
JOHN, Ansamma; PREMJITH, P. S.; WILSCY, M. Extractive multi-document summarization using population-based multicriteria optimization. Expert Systems with Applications, United Kingdom, v. 86, p. 385-397, 2017. DOI: Disponível em: https://doi.org/10.1016/j.eswa.2017.05.075. Acesso em: 27 jul. 2021.
JOSHI, Akanksha; FIDALGO, E.; ALEGRE, E.; FERNÁNDEZ-ROBLES, Laura. SummCoder: an unsupervised framework for extractive text summarization based on deep auto-encoders. Expert Systems with Applications, United Kingdom, v. 129, p. 200-215, 2019. Disponível em: https://doi.org/10.1016/j.eswa.2019.03.045. Acesso em: 27 jul. 2021.
JOSHI, Aravind K. Natural language processing. Science, New York, v. 253, n. 5025, p. 1242-1249, 1991. Disponível em: https://doi.org/10.1126/science.253.5025.1242. Acesso em: 21 mai. 2021.
KHAMPARIA, Aditya; SINGH, Karan Mehtab. A systematic review on deep learning architectures and applications. Expert Systems, New Jersey, v. 36, n. 3, p. 1-22, 2019. Disponível em: https://doi.org/10.1111/exsy.12400. Acesso em: 11 nov. 2021.
LAMSIYAH, Salima; EL MAHDAOUY, Abdelkader; ESPINASSE, Bernard; EL ALAOUI OUATIK, Saïd. An unsupervised method for extractive multi-document summarization based on centroid approach and sentence embeddings. Expert Systems with Applications, United Kingdom, v. 167, p. 114152, 2021a. Disponível em: https://doi.org/10.1016/j.eswa.2020.114152. Acesso em: 16 abr. 2021.
LAMSIYAH, Salima; MAHDAOUY, Abdelkader El; OUATIK, Saïd El Alaoui; ESPINASSE, Bernard. Unsupervised extractive multi-document summarization method based on transfer learning from BERT multi-task fine-tuning. Journal of Information Science, United Kingdom, v. 49, n. 1, p. 164-182, 2021b. Disponível em: http://doi.org/10.1177/0165551521990616. Acesso em: 24 nov. 2021.
LEIJNEN, Stefan; VEEN, Fjodor Van. The neural network zoo. Proceedings, Basel, v. 47, n. 1, p. 9, 2020. Disponível em: https://doi.org/10.3390/proceedings2020047009. Acesso em: 05 nov. 2021.
LI, Ping; YU, Jiong. Extractive summarization based on dynamic memory network. Symmetry, Basel, v. 13, n. 4, p. 600, 2021. Disponível em: https://doi.org/10.3390/sym13040600. Acesso em: 27 set. 2022.
LIU, Yang; LAPATA, Mirella. Text summarization with pretrained encoders. ArXiv, Ithaca, v. 1, 2019. Disponível em: https://doi.org/10.48550/arXiv.1908.08345. Acesso em: 18 jul. 2022.
MCGEE, James; PRUSAK, Laurence. Gerenciamento estratégico da informação. Rio de Janeiro: Campus, 1994.
MILLER, Derek. Leveraging BERT for extractive text summarization on lectures. ArXiv, Ithaca, v. 1, 2019. Disponível em: http://doi.org/arxiv.org/abs/1906.04165. Acesso em: 27 ago. 2021.
MILLER, Jerry P. O milênio da inteligência competitiva. Porto Alegre: Bookman, 2002.
MUTLU, Begum; SEZER, Ebru A.; AKCAYOL, M. Ali. Candidate sentence selection for extractive text summarization. Information Processing & Management, United Kingdom, v. 57, n. 6, p. 1-18, 2020. Disponível em: https://doi.org/10.1016/j.ipm.2020.102359. Acesso em: 16 abr. 2021.
NESI, Paolo; PANTALEO, Gianni; SANESI, Gianmarco. A hadoop based platform for natural language processing of web pages and documents. Journal of Visual Languages and Computing, Amsterdan, v. 31, n. 2015, p. 130-138, 2015. Disponível em: http://doi.org/10.1016/j.jvlc.2015.10.017. Acesso em: 20 jun. 2020.
PADMAKUMAR, Aishwarya; SARAN, Akanksha. Unsupervised text summarization using sentence embeddings. Tecnical Report, University of Texas,Austin, p. 1-9, 2016.
PRODANOV, Cleber Cristiano; FREITAS, Ernani Cesar. Metodologia do trabalho científico: métodos e técnicas da pesquisa e do trabalho acadêmico. 2. ed. Novo Hamburgo: Feevale, 2013.
PROTIM GHOSH, Partha; SHAHARIAR, Rezvi; HOSSAIN KHAN, Muhammad Asif. A rule based extractive text summarization technique for bangla news documents. International Journal of Modern Education and Computer Science, Hong Kong, v. 10, n. 12, p. 44-53, 2018. Disponível em: http://doi.org/10.5815/ijmecs.2018.12.06. Acesso em: 27 jul. 2021.
RAMOS, Hélia de Sousa Chaves; BRÄSCHER, Marisa. Aplicação da descoberta de conhecimento em textos para apoio à construção de indicadores infométricos para a área de C&T. Ciência da Informação, Brasília, v. 38, n. 2, p. 56-68, 2009. Disponível em: http://doi.org/10.1590/s0100-19652009000200005. Acesso em: 22 abr. 2021.
RICHARDSON, Roberto Jarry. Pesquisa Social: métodos e técnicas. 3. ed. São Paulo: Atlas, 2012.
RINALDI, Antonio M.; RUSSO, Cristiano; TOMMASINO, Cristian. A semantic approach for document classification using deep neural networks and multimedia knowledge graph. Expert Systems with Applications, United Kingdom, v. 169, p. 1-13, 2021. Disponível em: http://doi.org/10.1016/j.eswa.2020.114320. Acesso em: 14 abr. 2021.
SALEHI, Hadi; BURGUEÑO, Rigoberto. Emerging artificial intelligence methods in structural engineering. Engineering Structures, United Kingdom, v. 171, p. 170-189, 2018. Disponível em: https://doi.org/10.1016/j.engstruct.2018.05.084. Acesso em: 17 set. 2021.
SEARLE, Thomas; IBRAHIM, Zina; TEO, James; DOBSON, Richard JB. Estimating redundancy in clinical text. ArXiv, Ithaca, v. 1, 2021. Disponível em: https://doi.org/10.48550/arXiv.2105.11832. Acesso em: 24 nov. 2021.
SHRESTHA, Ajay; MAHMOOD, Ausif. Review of deep learning algorithms and architectures. IEEE Access, New York, v. 7, p. 53040-53065, 2019. Disponível em: https://di.org/10.1109/ACCESS.2019.2912200. Acesso em: 11 nov. 2021.
SINHA, Aakash; YADAV, Abhishek; GAHLOT, Akshay. Extractive text summarization using neural networks. ArXiv, Ithaca, v. 1, 2018. Disponível em:
https://doi.org/10.48550/arXiv.1802.10137. Acesso em: 27 ago. 2021.
STANTON, Jeffrey M. Data science: what’s in it for the new librarian? Syracuse University, New York, 26 July 2012.
SYED, Ayesha Ayub; GAOL, Ford Lumban; MATSUO, Tokuro. A survey of the state-of-the-art models in neural abstractive text summarization. IEEE Access, New York, v. 9, p. 13248-13265, 2021. Disponível em:https://doi.org/10.1109/ACCESS.2021.3052783. Acesso em: 16 abr. 2021.
TAN, Bowen; KIEUVONGNGAM, Virapat; NIU, Yiming. Automatic text summarization of covid-19 medical research articles using BERT and GPT-2. ArXiv, Ithaca, v. 1, 2020. Disponível em: https://doi.org/10.48550/arXiv.2006.01997. Acesso em: 17 abr. 2021.
VASCONCELLOS, Vera M. Ramos; SILVA, Anne P. P. Nascimento; SOUZA, Roberta Teixeira. O estado da arte ou o estado do conhecimento. Educação, Porto Alegre, v. 43, n. 3, p. 1-12, 2020. Disponível em: htttps://doi.org/10.15448/1981-2582.2020.3.37452. Acesso em: 26 nov. 2021.
WANG, Lin. Twinning data science with information science in schools of library and information science. Journal of Documentation, United Kingdom, v. 74, n. 6, p. 1243-1257, 2018. Disponível em: https://doi.org/10.1108/JD-02-2018-0036. Acesso em: 27 set. 2022.
WAZLAWICK, Raul Sidnei. Metodologia de pesquisa para ciência da computação. 2. ed. Rio de Janeiro: LTC, 2014.
WEAVER, Adam. Tourism, big data, and a crisis of analysis. Annals of Tourism Research, United Kingdom, v. 88, p. 1-11, 2021. Disponível em: https://doi.org/10.1016/j.annals.2021.103158. Acesso em: 16 abr. 2021.
WOLF, Thomas et al. HuggingFace’s transformers: state-of-the-art natural language processing. ArXiv, Ithaca, v. 1, 2019. Disponível em:
https://doi.org/10.48550/arXiv.1910.03771. Acesso em: 11 nov. 2021.
YANG, Guangbing et al. The effectiveness of automatic text summarization in mobile learning contexts. Computers & Education, Amsterdan, v. 68, p. 233-243, 2013. Disponível em: https://doi.org/10.1016/j.compedu.2013.05.012. Acesso em: 19 abr. 2021.
ZHANG, Aston; LIPTON, Zachary C.; LI, Mu; SMOLA, Alexander J. Dive into deep learning. Cambridge: Cambridge University Press; 2020.
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2024 Luander Cipriano de Jesus Falcão, Brenner Lopes, Renato Rocha Souza, Ricardo Rodrigues Barbosa

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos:
Autores mantêm os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho licenciado sob a Licença Creative Commons Attribution (CC BY 4.0), que permite o compartilhamento do trabalho com reconhecimento da autoria.
Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não exclusiva da versão do trabalho publicada nesta revista, como publicar em repositório institucional, com reconhecimento de autoria e publicação inicial nesta revista.
Os artigos são de acesso aberto e uso gratuito. De acordo com a licença, deve-se dar o crédito apropriado, prover um link para a licença e indicar se mudanças foram feitas. Não é permitido aplicar termos jurídicos ou medidas de caráter tecnológico que restrinjam legalmente outros de fazerem algo que a licença permita.