‘Artículos interesantes’

¿Por qué las publicaciones científicas están prisioneras detrás de un muro de pagos?

Normalmente, cuando veo una noticia o una entrada de un blog que es interesante para esta bitácora, intento plasmar un resumen personal del mismo, encontrar entradas independientes relacionadas en algún sentido y aportar mi granito de arena adicional, excavando un poco más en lo que he encontrado.

Pero siempre hay excepciones. En el blog Priceonomics, he encontrado la entrada Why is Science behind a paywall?, publicada por Alex Mayyasi el 10 de Mayo de 2013, que pienso que merece ser traducida íntegramente al castellano, al proporcionar una gran retrospectiva sobre por qué los descubrimientos científicos, y las publicaciones donde fueron hechos públicos, son como son (un poco más centrado en Estados Unidos que en el resto de países, todo sea dicho de paso). Espero no hacer un trabajo muy burdo…

(más…)
Etiquetas:

Los orígenes de la Bioinformática (IV): the rise of the machines

(Para los que sois nuevos en este blog, ésta es la cuarta entrega de una serie de entradas basadas en el material aportado por David, que es un artículo en Nature Reviews Genetics del año 2000 de Joel B. Hagen, titulado “The origins of bioinformatics”.)

Tras las 3 entregas anteriores, donde hemos visto cómo se descubrían y establecían algunos de los paradigmas sobre los que se sostiene la biología molecular moderna, todavía os estaréis preguntando “Éste es un blog de Bioinformática. ¿Y cuando salen los ordenadores?”. Pues ha llegado el momento de escribir sobre cómo se empezó a introducir el uso de los ordenadores, y cómo empezó a nacer la biología computacional.

A finales de los años 50 el mundo académico (en Estados Unidos, se entiende) empezó a tener acceso no restringido a los ordenadores, que hasta ese momento sólo habían tenido un uso militar. De todos los descubrimientos de esa época en el área de las ciencias de la vida, sólo se puede decir que los ordenadores tuvieron un papel determinante en la resolución de la estructura tridimensional de la mioglobina en 1957 (mediante la técnica de cristalografía de rayos X). Estos ordenadores estaban basados en válvulas de vacío, y se programaban a bajo nivel (no se podían reutilizar los programas), pero ayudaron a comenzar el desarrollo de técnicas computacionales y de desarrollo de software en el mundo académico.

IBM 7090

Ya a principios de la década de 1960 había un acceso casi generalizado en el mundo académico a los ordenadores. Algunas universidades empezaron a comprar ordenadores de segunda generación, basados en transistores, que además empezaban a llevar lenguajes de alto nivel. El primer lenguaje en alto nivel disponible fue FORTRAN, que fue desarrollado inicialmente por IBM para sus máquinas, lo cuál permitió que se pudiera empezar a reutilizar los programas desarrollados en otros ordenadores con arquitecturas diferentes.

Y aquí entra en juego Margaret Oakley Dayhoff (sitio oficial http://www.dayhoff.cc/), una de las pioneras de la Bioinformática. Ella comenzó con una preparación en química cuantitativa y matemáticas, y alrededor de los años 60 empezó a estar interesada en el mundo de las proteínas y la evolución molecular. Tuvo un buen punto de partida para sus intereses científicos, al ser en aquella época directora asociada de la recién creada National Biomedical Research Foundation, una fundación interesada en la promoción y aplicación de las técnicas computacionales para ayudar en la investigación médica. Margaret Dayhoff empezó a explorar las distintas técnicas matemáticas para analizar los ya crecientes datos de secuencias de aminoácidos.

Margaret Dayhoff, 1951, antes de dedicarse a la BioinformáticaA lo largo de sus investigaciones recibió fondos de NIH (National Institutes of Health), NSF (National Science Foundation), NASA (National Aeronautics and Space Administration) y la corporación IBM. Estas investigaciones se movían en varios frentes, de los cuáles el primero fue la escritura de una serie de programas en FORTRAN para determinar la secuencias de aminoácidos de las moléculas de proteínas. Estos programas tomaban fragmentos de péptidos obtenidos de la digestión parcial de una proteína, y calculaban todas las posibles secuencias compatibles con los ensamblajes de esos péptidos. Estos programas servían para resolver el mismo puzzle que tuvieron que resolver a mano durante varios meses los equipos que secuenciaron la ribonucleasa o la insulina, con la diferencia de que sus programas fueron capaces de llegar a la solución correcta en unos pocos minutos para la ribonucleasa.

Margaret Dayhoff no fue la única en su época dedicada a la creación de estos primeros programas de ensamblaje. Todos los investigadores que trabajaban en aquella época en este campo se dieron inmediatamente cuenta de que la misma metodología se podrían aplicar al ensamblaje de secuencias genómicas cuando las técnicas experimentales estuvieran disponibles.

Los programas de análisis de secuencias en aquella época siguieron los principios introducidos por el analizador automático de aminoácidos de Stein y Moore. Tanto los programas como el aparato estaban enfocados en recopilar rápidamente una biblioteca de secuencias que pudiera ser usada en estudios de bioquímica comparativa y evolución molecular. Y para promocionar este objetivo, Dayhoff fundó el Atlas of Protein Sequence and Structure (atlas de secuencia y estructura de proteínas), una publicación anual que intentaba catalogar todas las secuencias de aminoácidos conocidas. De forma muy rudimentaria, ésta fue la primera base de datos de información sobre biología molecular, y se convirtió en el recurso indispensable para las primeras investigaciones computacionales.

Con el paso del tiempo (y la creación de internet y la web) esta publicación evolucionó hasta convertirse en 1983 en una de las principales bases de datos online, PIR (the Protein Information Resource). Se convirtió en un importante punto de partida, y un referente para la creación de otras bases de datos basadas en información molecular.

Continuará…

Etiquetas:

Los orígenes de la Bioinformática (III). Sabemos que llevan información, pero ¿cuál?

Una vez que quedó demostrado que las proteínas eran secuencias de aminoácidos donde importaba el orden de los mismos, y que se empezó a secuenciar cada vez más proteínas, el repositorio de información asociado a las proteínas secuenciadas empezó a crecer poco a poco, pero todavía no se habían establecido las correspondencias entre el código genético (el ADN, compuesto de nucleótidos) y las proteínas (compuestas de aminoácidos), ni entre la secuencia de una proteína y su estructura y funcionalidad.

Correspondencias entre ADN, espacio de proteínas, espacio de estructuras de proteínas y función de proteínasA finales de 1950 los experimentos realizados por Christian Anfinsen y sus colaboradores mostraron que, una vez desnaturalizada la ribonucleasa (vamos, que perdió su conformación tridimensional y se quedó hecha un hilo), volvía a recuperar de forma espontánea su conformación tridimensional. Con ello quedó asentado el concepto de que la estructura tridimensional de una proteína está determinada única y exclusivamente por su secuencia de aminoácidos.

El problema bioinformático que hasta día de hoy no está resuelto de forma general es el de cómo calcular esa estructura tridimensional de la proteína a partir de la secuencia de aminoácidos. Dado que a nivel experimental es muchísimo más fácil secuenciar una proteína que obtener su estructura tridimensional mediante cristalografía de rayos X o resonancia magnética nuclear, la resolución del problema a nivel bioinformático simplificaría mucho la tarea en otras áreas. La estructura de una proteína determina su funcionalidad y participación en el metabolismo de los organismos, y proteínas con estructuras similares juegan papeles similares. Aunque dos proteínas con secuencias muy parecidas tienen siempre estructuras muy parecidas (y por tanto, funcionalidades muy parecidas), dos proteínas con secuencias distintas también pueden tener estructuras similares (por convergencia evolutiva) y por ello funcionalidades parecidas.

Y en la próxima entrega, la aparición de la biología computacional.

Continuará…

Etiquetas:

Aprendiendo a usar Ensembl por la red

Haciendo un pequeño paréntesis en mi serie de entradas sobre los orígenes de la bioinformática ha llegado el momento de hablar del material online disponible para aprender a sacarle el máximo partido a Ensembl. Almorzando hoy con mis compañeros de trabajo, Osvaldo mencionó que en la web de Ensembl había una serie de vídeos descriptivos de sus distintas características, y que servían para empezar a entrar en la herramienta.

La web de los tutoriales en vídeo es http://www.ensembl.org/info/website/tutorials/index.html, donde podéis encontrar no sólo la parte audiovisual, sino también presentaciones y mini-cursillos. Todos estos contenidos están en inglés, y los vídeos, al estar almacenados en YouTube, son susceptibles de ser subtitulados para facilitar la tarea de aprendizaje a discapacitados o gente que lea de forma fluida inglés pero no lo entienda de forma fluida.

Poco a poco, es cada vez más común encontrar este tipo de material asociado a herramientas bioinformáticas y sitios web, debido a la proliferación de sitios web como SciVee o SlideShare, que permiten con muy pocos costes difundir tu presentación en audio, vídeo y transparencias.

Y ahora, uno de los vídeos disponibles, el de la introducción a BioMart:

Imagen de previsualización de YouTube
Etiquetas:

Los orígenes de la Bioinformática (II) Las macromoléculas llevan información

El concepto de que las proteínas (que a fin de cuentas son macromoléculas) contienen información que está codificada en forma de secuencias lineales de aminoácidos lleva mucho tiempo totalmente aceptado por la comunidad científica, y es la piedra angular de toda la bioinformática clásica. Pero esto no fue siempre así, teniendo que remontarnos a los años posteriores a la Segunda Guerra Mundial para encontrar las primeras pruebas empíricas de esta idea. El bioquímico Emil Smith (que no lo debéis confundir con Temple Smith, del algoritmo Smith & Waterman) describió este periodo como “heroico” para la bioquímica de proteínas. El periodo heroico comprendería desde 1945 a 1955, cuando fue publicada la secuencia completa de la insulina gracias al esfuerzo de Frederick Sanger (sí, el que da nombre al Sanger Centre) y sus colaboradores.

Hipótesis alternativa de la estructura de proteínas
Hipótesis alternativa de la estructura de proteínas, del periodo heroico

Resumiendo mucho la historia, Frederick Sanger tomó como base el postulado (ahora teoría) sobre polipéptidos en la estructura de las proteínas. Este postulado, formulado inicialmente en 1902, generó mucho escepticismo en la comunidad científica, siendo más aceptadas las hipótesis alternativas (que en su época parecían más creibles). Algunas de ellas están reflejadas en la figura que he puesto. Una de ellas postulaba que las proteínas eran una especie de coloides amorfos, sin estructura definida, y que los polipéptidos se generaban al desnaturalizarse esos coloides. Otra promovía la idea de que las proteínas tenían forma de mallas con estructuras de celdas de colmena, tan típicas del anillo de benceno y los compuestos aromáticos. Y la última de la figura refleja una idea similar, pero no igual, en la que se consideraba la linealidad de la proteína incluso a nivel estructural, donde se consideraba que era una macromolécula periódica compuesta por repeticiones de de cadenas de aminoácidos.

Las técnicas experimentales habían mejorado ostensiblemente en las décadas de 1930 y 1940, pero antes del trabajo del equipo de Frederick Sanger no se sabía apenas nada sobre la posición específica o el orden de cada aminoácido en la proteína, o de su estructura. La resolución y publicación de la secuencia de aminoácidos de la insulina permitió descartar todas las hipótesis erróneas y comprobar a la idea básica de que las proteínas están compuestas de aminoácidos, que esos aminoácidos tienen un orden lineal (secuencia o estructura 1D), y que esos aminoácidos en ese orden específico determinan la estructura de la proteína (estructuras 2D y 3D). El trabajo experimental que condujo a la obtención de la secuencia de la insulina (de sólo 51 aminoácidos) fue bastante arduo, porque requería de químicos muy experimentados en la degradación de las proteínas fueran capaces de determinar de forma muy precisa en qué estado de degradación se encontraban las muestras, e ir controlando esa degradación.

Pero al mismo tiempo otros bioquímicos estaban desarrollando métodos más refinados, como la reacción de degradación de Edman, que permitió ir quitando de una cadena peptídica pequeña uno a uno sus aminoácidos, de forma secuencial. Esta nueva técnica permitió semiautomatizar todo el proceso, lo cuál fue una revolución para el mundo de la biología molecular. Por ejemplo, con esta nueva técnica la secuenciación de la ribonucleasa (realizada por el equipo coordinado por Stanford Moore y William Stein del Instituo Rockefeller), una proteína de 124 aminoácidos, llevó la mitad de tiempo que la obtención de la secuencia de la insulina.

A finales de la década de 1960 Pehr Edman consiguió automatizar por completo todo el proceso con su “sequenator”, lo cuál hizo que muchos grupos de biología molecular hicieran crecer la cada vez mayor biblioteca de secuencias de proteínas. Sin estos primeros esfuerzos y entonces nuevas técnicas experimentales habría sido muy difícil que nacieran las bases de datos de secuencias, o que se hubiera si quiera soñado en proyectos de secuenciación del genoma completo de un organismo. Y sin ello la bioinformática, la biología molecular y muchas otras disciplinas relacionadas con las ciencias de la vida posiblemente serían muy diferentes…

Continuará…

Etiquetas:

Los orígenes de la Bioinformática (I) La semilla

Desde hace unos meses tengo en la recamara de las publicaciones material relacionado con los origenes del EBI (gracias a Graham Cameron) y de la bioinformática en general (gracias a David G. Pisano). En este artículo empezaré a desgranar parte del material aportado por David, que es un artículo en Nature Reviews Genetics del año 2000 de Joel B. Hagen, titulado “The origins of bioinformatics”.

Al principio la bioinformática no existía de la forma como la conocemos a día de hoy. No se había secuenciado el genoma de ningún organismo, ni había grandes bases de datos, ni text-mining, ni algoritmos de alineamiento de secuencias… Estoy hablando de los años 60, cuando empezaban a acumularse datos de la bioquímica de las proteínas. En aquella época el término más usado por los pioneros de la nueva disciplina en la que se usaban los ordenadores para ayudar a resolver problemas y enigmas biológicos era el de biología computacional, que a día de hoy se sigue empleando.

Hitos tempranos en la secuenciación de proteínas y péptidos¿Qué factores iniciaron el desarrollo de la biología computacional hacia lo que hoy conocemos como bioinformática? Uno de ellos fue la creciente colección de secuencias de aminoácidos y de estructuras de proteínas resultas, y el planteamiento de nuevos problemas que sólo podían ser resueltos gracias a la potencia de cálculo de los ordenadores. Otro, tal vez el más determinante, fue que el marco conceptual de la biología molecular empezó a incluir la idea de que las macromoléculas portan información, lo cuál hizo que cambiara la forma de pensar de muchos científicos. Desde ese momento dos disciplinas aparentemente no relacionadas como la biología molecular y la teoría de la información (una rama de la matemática) empezaron a estar ligadas entre sí. Y por último, la potencia computacional de los ordenadores desarrollados desde la Segunda Guerra Mundial con fines militares empezó a estar al alcance de los científicos fuera del ámbito militar. Obviamente no había una disponibilidad como la actual, en la que una persona puede tener en su bolsillo la potencia de un superordenador de aquella época, pero no estaba tan restringido el acceso.

Continuará…

Etiquetas:

Récord de simulación de plegamiento de proteínas

Hace unos días salió publicado en Nature News la noticia ‘Supercomputer sets protein-folding record’, en la que se cuenta cómo se ha conseguido simular con el supercomputador Anton los cambios estructurales de una proteína durante un milisegundo, coincidiendo con las observaciones obtenidas de la proteína real. El tiempo necesario para calcular esa simulación fue de 100 días, mientras el tiempo de plegamiento simulado es 100 veces mayor que el anterior récord. Para esta prueba se usaron dos proteínas que han sido estudiadas experimentalmente durante mucho tiempo. Una de ellas es en sí un fragmento de proteína que es un dominio WW, y la otra es una pequeña proteína llamado inhibidor pancreático básico de tripsina (espero haber hecho bien la traducción).

Para los que no seáis del mundillo de la bioinformática puede chocar esta noticia, porque comparado con la vida real u otro tipo de predicciones (como la meteorológica) es una duración muy corta, pero a escala molecular un milisegundo es una duración muy larga.

Haciendo un poco de resumen, una proteína es básicamente una sucesión de aminóacidos encadenados entre sí de forma secuencial. Cada proteína que sintetizan las células de cualquier organismo ha sido creada por la maquinaria traslacional de las mismas, a partir de la traducción a aminoácidos del ADN complementario al ARN mensajero que fue obtenido del correspondiente gen (aunque un gen pueda tal vez llevar a más de una proteína si hay splicing alternativo de por medio).

Cuando las proteínas son sintetizadas no ‘nacen’ directamente en su conformación tridimensional habitual, sino que la adquieren pasado un tiempo (una de las situaciones simulables). Además, las proteínas no son rígidas, sino que pueden tener distintas confirmaciones destinadas a su interacción con otras proteínas, ADN y pequeñas moléculas. Estas conformaciones son importantes a la hora de determinar la función, el papel o la participación de una proteína en las distintas rutas metabólicas. El problema es que a veces es difícil por medios experimentales reproducir las condiciones en las que se produce el proceso para una determinada proteína, y muy difícil conseguir cristalizar la proteína para poder usar técnicas de difracción de rayos X o resonancia magnética nuclear, en lo cuál a veces se tarde 2 años o más (si es que se consigue).

Y ahí está la importancia de estas simulaciones, que pueden proporcionar información o al menos pistas sobre la función de proteínas conocidas a nivel de secuencia, pero con estructura tridimensional desconocida. El gran problema de cualquier simulación es que nunca puede llegar a ser una emulación del mundo real, principalmente porque se desconocen todos los factores que afectan al suceso real a emular, o calcular el impacto de algunos de esos factores no es razonable. Eso hace que con cada paso de simulación se vayan introduciendo errores de cálculo que hacen que los resultados de la simulación se vayan separando poco a poco de la realidad. Conseguir alargar una simulación no sólo depende de la potencia computacional bruta disponible, sino también del modelo físico usado y de si se ha conseguido compensar de alguna manera esos inevitables errores de cálculo que se introducen en cada paso de la simulación.

http://es.wikipedia.org/wiki/Splicing_alternativo
Etiquetas: