A descrição formal da qualidade de dados publicados na Web

análise do Data Quality Vocabulary (DQV)

Autores

DOI:

https://doi.org/10.1590/1808-5245.29.129415

Palavras-chave:

qualidade de dados, avaliação de qualidade, DQV

Resumo

O processo de avaliação de qualidade desempenha um papel importante na reutilização dos dados disponibilizados na Web. Para garantir o uso e reuso desses dados faz-se necessária à sua descrição formal, de maneira compreensível à agentes computacionais. Uma das possibilidades para viabilizar essa descrição é o Data Quality Vocabulary, elaborado pelo Word Wide Web Consortium.  Objetivou-se verificar o impacto do Data Quality Vocabulary no processo de descrição formal da qualidade de dados publicados na Web, analisando os objetivos, características e a estrutura do vocabulário. A pesquisa possuí um caráter exploratório e descritivo, adotando como método um estudo da documentação oficial publicada pelo consórcio. Como resultados obteve-se um panorama do cenário que levou ao desenvolvimento do vocabulário, foi apresentada sua estrutura e discutido o seu potencial de aplicação. Conclui-se que o Data Quality Vocabulary disponibiliza uma estrutura descritiva geral e customizável para o fornecimento de resultados do processo de avaliação de qualidade de dados, o que permite que esses resultados sejam compartilhados pelos seus fornecedores. Permite ainda que a comunidade participe do processo de avaliação e compartilhe os resultados obtidos de maneira formal, diminuindo assim o retrabalho. Conclui-se ainda que o vocabulário contribui para o reuso de dados no contexto da Web ao facilitar o uso de ferramentas automáticas e semiautomáticas no processo de avaliação e seleção de fontes de dados para a aplicação

Downloads

Não há dados estatísticos.

Biografia do Autor

Ananda Fernanda de Jesus, Universidade Estadual Paulista

Doutoranda em Ciência da Informação pela Universidade Estadual Paulista - UNESP (2021). Mestre em Ciência da Informação pela Universidade Federal de São Carlos - UFSCar (2021). Bolsista da Fundação de Amparo à Pesquisa do Estado de São Paulo FAPESP (2017 a 2021). Bacharel em Biblioteconomia e Ciência da Informação UFSCar (2018). Membro do Grupo de Pesquisa e Estudos em Representação do Conhecimento e Tecnologias da Informação e Comunicação (GPERTIC). Tem interesse de pesquisas nos temas : Catalogação Descritiva; Linked Data; Web Semântica; Controle de Autoridade, Dados Científicos, Qualidade de Dados

José Eduardo Santarem Segundo, Universidade de São Paulo

Livre Docente em Informação e Tecnologia pela Universidade de São Paulo (USP), 2020. Pós-Doutorado pela Faculdade de Engenharia da Computação da Western University/Canadá, 2018. Doutor e Mestre em Ciência da Informação pela Universidade Estadual Paulista Júlio de Mesquita Filho-UNESP-Marília/SP; Professor Doutor no Departamento de Educação, Informação e Comunicação, da Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto, da Universidade de São Paulo (USP); Docente do Programa de Pós-Graduação em Ciência da Informação da UNESP/Marília na linha de Informação e Tecnologia. Bolsista de Produtividade em Pesquisa PQ-2 do CNPq. Membro da Diretoria Executiva da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (ANCIB). Coordenador do GT8 - Informação e Tecnologia, da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (ANCIB) 2016-2021. Atua na linha de pesquisa - Ambientes Digitais e Tecnologias Aplicadas a Informação e Comunicação - , com ênfase em Web Semântica, Linked Data, Big Data, Aprendizado de Maquina (Machine Learning), Dados Abertos e Acervos Digitais. Lider do NEWSDA - Núcleo de Estudos em Web Semantica e Dados Abertos. Recebeu o Prêmio de Melhor Tese pela Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (ANCIB) - Ano 2011. Recebeu também Menção Honrosa no Prêmio Capes de Teses - 2011 (Ciências Sociais Aplicadas)

Referências

ALBERTONI, R. et al. LusTRE: a framework of linked environmental thesauri for metadata management. Earth Science Informatics, Atlanta, v. 11, n. 4, p. 525-544, 2018. Disponível em: http://dx.doi.org/10.1007/s12145-018-0344-8. Acesso em: 18 abr. 2023.

ALVES, R. C. V. Metadados como elementos do processo de catalogação. 2010. Tese (Doutorado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2010.

ASSAF, A.; SENART, A.; TRONCY, R. Towards an objective assessment framework for linked data quality. International Journal on Semantic Web and Information Systems, Hershey, v. 12, n. 3, p. 111-133, 2016. Disponível em: https://doi.org/10.4018/ijswis.2016070104. Acesso em: 18 abr. 2023.

BARITÉ, M. Control de vocabulario: orígenes, evolución y proyección. Ciência da Informação, Brasília, v. 41, n. 1, p. 95-119, 2014. Disponível em: https://doi.org/10.18225/ci.inf.v43i1. Acesso em: 30 mar. 2023.

BERNERS-LEE, T. Linked data, W3.Org., Massachusetts, 27 Jul. 2006.

BISCALCHIN, R. Os sistemas de organização do conhecimento e os desafios frente a geração google. Páginas a&b: arquivos e bibliotecas, Porto, s. 3, n. 11, p. 3-9, 2019. Disponível em: https://doi.org/10.21747/21836671/pag11a1. Acesso em: 30 mar. 2023.

DEBATTISTA, J.; LANGE, C.; AUER, S. DaQ, an ontology for dataset quality information. Ldow2014, Seoul, v. 1, n. 1, p. 1-8, 2014.

DEBATTISTA, J.; AUER, S.; LANGE, C. Luzzu: a methodology and framework for Linked data quality assessment. Journal of Data and Information Quality, Estados Unidos, v. 8, n. 1, p. 1-32, 2016. Disponível em: http://dx.doi.org/10.1145/2992786. Acesso em: 18 abr. 2023.

FÄRBER, M. et al. Linked data quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO. Semantic Web, Kansas, v. 9, n. 1, p. 77-129, 2017. Disponível em: http://dx.doi.org/10.3233/sw-170275. Acesso em: 26 maio 2022.

FUJITA, M. S. L; TOLARE, J. B. Vocabulários controlados na representação e recuperação da informação em repositórios brasileiros. Informação & Informação, Londrina, v. 24, n. 2, p. 93-125, 2019. Disponível em: https://doi.org/10.5433/1981-8920.2019v24n2p93. Acesso em: 30 mar. 2023.

INTERNATIONAL ORGANIZATION FOR STANDARDIZATION; INTERNATIONAL ELECTROTECHNICAL COMMISSION (ISO/IEC 25012). Software engineering - software product quality requirements and evaluation (SQuaRE): data quality model, Switzerland, 2008.

ISOTANI, S.; BITTENCOURT, I. I. Dados abertos conectados. São Paulo: Novatec, 2015.

JURAN, J. M. Quality control handbook. New York: Mcgraw-Hill. 1988.

MADER, C. qSKOS. GitHub, [s.l.], 7 Sept. 2018.

MARCONDES, C. H. Fundamentos da organização do conhecimento. Pontodeacesso, Salvador, v. 15, n. 3, p. 249-282, 2021. Disponível em: https://doi.org/10.9771/rpa.v15i3.47468. Acesso em: 30 mar. 2023.

MELO, J. O. S. F. Metodologia de avaliação de qualidade de dados no contexto do Linked data. 2017. Dissertação (Mestrado em Ciência da Informação) - Pós-Graduação em Ciência da Informação, Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2017.

MIHINDUKULASOORIYA, N. Linked data sniffer, GitHub, [s.l.], 16 Mar. 2017.

NELSON, R. R.; TODD, P. A.; WIXOM, B. H. Antecedents of information and system quality: an empirical examination within the context of data warehousing. Journal of Management Information Systems, United Kingdom, v. 21 n. 4, p. 199-235, 2005. Disponível em: https://doi.org/10.1080/07421222.2005.11045823. Acesso em: 30 mar. 2023.

NOOGHABI, M. Z.; DASTGERDI, A. F. Proposed metrics for data accessibility in the context of linked open data. Program Electronic Library and Information Systems, Leeds, v. 50, n. 2, p. 184-194, 2016. Disponível em: http://dx.doi.org/10.1108/prog-01-2015-0007. Acesso em: 26 maio 2022.

SOUSA, J. L.; RAMALHO, R. A. S. SKOS para vocabulários controlados. TPBCI: Tendências da Pesquisa Brasileira e Ciência da Informação, Brasil, v. 13, n. 1, p. 1-16, 2020.

TOMOYOSE, K. O data catalog vocabulary (dcat) para a publicação de dados de pesquisa nos princípios Linked Data. 2021. Dissertação (Mestrado em Ciência da Informação) - Curso de Programa de Pós-Graduação em Ciência da Informação, Universidade Federal de São Carlos, São Carlos, 2021.

TOMOYOSE, K.; TRIQUES, M. L.; SIMIONATO, A. C. Vocabulários controlados e linked open data: análise dos vocabulários getty. Informação@Profissões, Londrina, v. 7, n. 1, p. 77-91, 2018. Disponível em: http://dx.doi.org/10.5433/2317-4390.2018v7n1p77. Acesso em: 12 jan. 2022.

WANG, R. Y.; STRONG, D. M. Beyond accuracy: what data quality means to data consumers. Journal of Management Information Systems, New York, v. 12, n. 4, p. 5-33, 1996. Disponível em: https://doi.org/10.1080/07421222.1996.11518099. Acesso em: 17 abr. 2023.

WORLD WIDE WEB CONSORTIUM (W3C). RDF 1.1 Primer, Massachusetts, 24 June 2004.

WORLD WIDE WEB CONSORTIUM (W3C). Data quality vocabulary (DQV), Massachusetts, 25 June 2015a.

WORLD WIDE WEB CONSORTIUM (W3C). Vocabularies, Massachusetts, 25 June 2015b.

WORLD WIDE WEB CONSORTIUM (W3C). Data on the web best practices: data quality vocabulary, Massachusetts, 15 Dec. 2016a.

WORLD WIDE WEB CONSORTIUM (W3C). List of DQV implementations, Massachusetts, 15 Dec. 2016b.

WORLD WIDE WEB CONSORTIUM (W3C). Best practices for publishing Linked data, Massachusetts, 31 Jan. 2017.

WORLD WIDE WEB CONSORTIUM (W3C). Data catalog vocabulary (DCAT): version 2, Massachusetts, 4 Feb. 2020.

ZAVERI, A. et al. Quality assessment methodologies for linked open data. SWJ: Semantic Web Journal, Kansas, v.1, p. 1-5, 2012.

Publicado

2023-10-05

Como Citar

JESUS, A. F. de; SANTAREM SEGUNDO, J. E. . A descrição formal da qualidade de dados publicados na Web: análise do Data Quality Vocabulary (DQV). Em Questão, Porto Alegre, v. 29, 2023. DOI: 10.1590/1808-5245.29.129415. Disponível em: https://seer.ufrgs.br/index.php/EmQuestao/article/view/129415. Acesso em: 18 abr. 2025.

Edição

Seção

Artigo

Artigos mais lidos pelo mesmo(s) autor(es)