Algoritmos de alineamiento de secuencias

Siguiendo el hilo del mensaje anterior, Manuel, el estudiante de Biología interesado en Bioinformática me preguntó en un correo de vuelta si los algoritmos de alineamiento de secuencias que se usan hoy en día funcionan bien. No creo ser la persona con más experiencia en el tema para responder, pero aquí va:

    Los algoritmos de hoy en día funcionan bastante bien para encontrar secuencias similares que puedan ser homólogas de la usada como entrada. Se puede decir que los resultados son creíbles hasta un porcentaje del 30% de similitud, siempre y cuando la secuencia tenga una longitud mínima aproximada de 30 resíduos (ya sean aminoácidos o nucleótidos). Claro está, el funcionamiento de cualquier algoritmo de alineamiento de secuencias depende mucho de la calidad de la base de datos de secuencias que uses, y de tu conocimiento sobre lo que buscas para afinar en los parámetros de ejecución.

    Los algoritmos de alineamiento de secuencias de hoy en día son un estándar de facto en la bioinformática, y casi siempre la base para métodos más complejos. Uno de los primeros estándares fue, ya hace bastantes años, el algoritmo de Smith&Waterman, que está basado en una estrategia de comparación y búsqueda exhaustiva de secuencias usando programación dinámica. A medida que fue creciendo el tamaño de las bases de datos se hizo inviable usar esta estrategia (es un algoritmo O(n2) en espacio y tiempo), y se migró a una en la que, aunque no se encontrara siempre el mejor resultado, evitara realizar buena parte de las comparaciones.

    De ahí nació el algoritmo FASTA, muy usado todavía hoy en día en algunas partes. La comunidad bioinformática terminó rechazando este algoritmo porque, a pesar de funcionar muy bien, no estaba basado en conceptos biológicos. Esto sucedió cuando apareció el algoritmo Blast, que evolucionó posteriormente a Gapped Blast, que es el estándar de facto actual.

    La implementación gratuita más aceptada, y que suele tomarse como referencia es NCBI Blast. Se ha hecho tan indispensable desde su aparición hace casi 10 años que existen diversas implementaciones paralelizadas. Personalmente he tenido el placer de usar un par de implementaciones en hardware, que aceleran las búsquedas de manera ‘brutal’.

    Existen más algoritmos de alineamiento de secuencias posteriores a Blast, y que tienen su propio nicho. Algunos de ellos son PSI-Blast, ssearch (básicamente una implementación del Smith&Waterman) y BLAT. El primero está especializado en búsquedas de homólogos remotos, el segundo es más ‘sensitivo’, a costa de más tiempo de ejecución, mientras que el tercero se usa para realizar de forma eficiente comparaciones masivas de genoma contra genoma y cromosoma contra cromosoma.

    Seguro que hay más de un lector con conocimientos más profundos de este tema, así que ¡bienvenidos seais!

Enlaces:

Compartir:

Deja un comentario