Bases de datos biológicas y bioinformáticas

Casi todos los desarrollos que se hacen a día de hoy en bioinformática de una u otra manera hacen uso de datos almacenados en bases de datos «biológicas» o «bioinformáticas». Para aquellos de vosotros que tiene formación en ciencias de la computación, cuando escucháis base de datos empezáis a pensar en SQL, el modelo relacional, etc… Para la gente que las tiene que usar diariamente, les vendrá a la mente los gestores de bases de datos y los distintos productos que hay disponibles, tanto de pago como de código abierto, que permiten interrogar de diversas maneras (usando el lenguaje de consultas SQL) la información almacenada en una instancia del gestor. En bioinformática, el concepto de «base de datos biológica» no alude tanto a la tecnología usada como al contenido almacenado.

Una base de datos biológica es un almacén de datos para información derivada de los datos obtenidos experimentos biológicos, ni más ni menos. Y una base de datos bioinformática es un almacén de datos para información derivada de datos biológicos y de programas bioinformáticos. Si bajamos al nivel más técnico, las bases de datos biológicas y bioinformáticas están disponibles generalmente como un conjunto de ficheros planos, cuyo tamaño suele ser enorme. Para que os hagáis una idea, os incluyo un gráfico público de crecimiento de la base de datos GenBank desde 1982 hasta 2008:

GenBank Growth Chart

Y lo más importante de todo: casi todas estas bases de datos son de libre disposición (cualquiera puede descargarlas). Ello es posible porque la información almacenada en la mayor parte de estas bases de datos es de dominio público y casi siempre estática, al venir de investigación científica ya terminada financiada con fondos públicos. Estos ficheros están casi siempre en formato textual, y la razón viene de los orígenes de la bioinformática: poder entender, ver y manipular sus contenidos sin depender de herramientas especializadas. Los contenidos de estos ficheros, al ser textuales, son muy comprimibles, y por eso suelen estar comprimidos con gzip, bzip2, xz, etc…

Próxima entrada: qué es necesario para ser un scientific database curator

Compartir:

Deja un comentario