Paris japonica y el volumen de los datos

Hoy me he encontrado con una noticia curiosa sobre Paris japonica, una rara flor japonesa, cuyo proyecto de secuenciación ha terminado hace poco. La noticia resalta el tamaño del genoma de esta flor, que es uno de los hechos publicados en el artículo The largest eukaryotic genome of them all?, publicado en Botanical Journal of the Linnean Society. Como no he tenido la oportunidad de leerme el artículo completo (acceso sólo para subscriptores), y la noticia sólo hace referencia al peso del ADN (y no a su tamaño en pares de bases), indagando en la entrada de Paris japonica de Wikipedia he encontrado que ese genoma tiene la friolera de ¡150 mil millones de pares de bases!

¿Qué significa esto a nivel del uso de herramientas bioinformáticas? Que algunas herramientas no podrían usarse, y que el tiempo de ejecución con otras se alargaría bastante. Por ejemplo, imaginaos que tenéis acceso a las lecturas de los secuenciadores usados para la secuenciación del genoma de esta planta. Si quisierais ensamblar las lecturas para obtener el genoma, e intentarais usar una técnica de ensamblaje de novo, sin tomar como referencia ningún otro genoma, no podríais usar las técnicas convencionales por los requisitos de memoria de los ensambladores de novo. Y en el mejor de los casos, una vez ensamblado el genoma una predicción de genes tardaría al menos 50 veces más que en un genoma del tamaño del genoma humano. Los visores tipo Ensembl o UCSC Genome Browser no deberían verse afectados, pero sí alguna de las funcionalidades que tienen (por ejemplo, el servicio BLAT de UCSC no estaría disponible).

En estos casos en los que el volumen de datos sobrepasa lo anteriormente manejado es cuando nos tenemos que plantear estrategias alternativas. Y para las técnicas bioinformáticas convencionales no sólo de uso de algoritmos paralelizados que permitan sacar partido a varios procesadores u ordenadores simultáneamente, o que gestionen de forma eficiente la memoria necesaria, sino de gestión del almacenamiento en disco (el genoma de Paris japonica ocuparía unos 150GB en formato FASTA una vez ensamblado).

Tras tanto razonamiento mi pregunta es, ¿cuántos cromosomas tiene esta planta? Y de todas esas pares de bases, ¿cuántas corresponden a genes codificantes?

Compartir:

4 comentarios

  1. Sin haber tenido la oportunidad de leer el artículo no te lo puedo asegurar, aunque es verdad que escama un poco el tema de que casi siempre hablen de la masa del ADN de la flor en lugar del número de cromosomas o de pares de bases. Acabo de comprobar en el sitio de NCBI, y no hay mucho.

  2. Me temo que vende mucho más decir que «una planta tiene más ADN que nosotros» que no que tenga 40 cromosomas, como es el caso. Por lo que he leído por encima sólo se ha estimado su tamaño, por citometría de flujo, no hablan de secuenciar el genoma.

Deja un comentario