Análise de desempenho de Banco de Dados Relacionais e Não Relacionais em dados genômicos

Juccelino Rodrigues Alves Barros, Gustavo Almeida Callou, Glauco Gonçalves, Victor Wanderley, Henrique Casteletti

Abstract


O armazenamento de dados genômicos é um grande desafio hoje, pois
com o avanço da tecnologia molecular a quantidade de dados genômicos gerados
está aumentando, de forma que o sequenciamento de um único organismo pode
gerar arquivos com gigabytes de informações. De forma geral, os processos de
manipulação de dados genômicos fazem uso de simples arquivos como o principal
meio para armazenamento de tais dados. Contudo, os bancos de dados modernos
se apresentam como alternativa para a gerência desses dados por oferecer melhor
organização, tolerância a falhas, melhor uso do espaço disponível para armaze-
namento e desempenho. Além disso, os bancos de dados permitem agregar aos
dados brutos do sequenciamento meta-informações acerca das sequências de DNA
armazenadas. Diante deste cenário, este trabalho apresenta e avalia o desempenho de
diferentes estratégias de armazenamento em três bancos de dados pertencentes a dois
paradigmas diferentes, o MySQL (representante dos bancos de dados Relacionais), o
Cassandra e o MongoDB (representantes dos bancos de dados Não Relacionais). Os
resultados demonstraram que os bancos de dados relacionais apresentam limitações
quando estão inseridos em um ambiente com grandes massas de dados.

References


MILLER, N. A. et al. A 26-hour system of highly sensitive whole genome sequencing for emergency management of genetic diseases. Genome medicine, BioMed Central, v. 7, n. 1, p. 100, 2015.




DOI: https://doi.org/10.22456/2175-2745.71775

Copyright (c) 2018 Juccelino Rodrigues Alves Barros, Gustavo Almeida Callou, Glauco Gonçalves, Victor Wanderley, Henrique Casteletti

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.