![]()
Pregunta sobre los scores de ClustalW
Hoy ha mandado Omar una pregunta sobre los scores de ClustalW, que podeis leer a continuación:
Hola mi nombre es Omar y soy de México. Soy Ing. en Sistemas y apenas entre al mundo de la Bioinformática pero tengo muchas dudas, espero y me puedan ayudar.
Mi duda es sobre el ClustalW, Hice algunos alineamientos usando una matriz de sustitución Blosum80 pero no comprendo muy bien los scores. ¿Cómo puedo usar ese score?, ¿Puedo usar ese score como un porcentaje de similitud?, ¿Cómo obtiene ClustalW ese score?, ¿Por qué tengo que sumar 8 a cada cambio de residuo para que me de el score?, ¿Cómo usar los score por grupos y el score final?. Gracias espero y me puedan ayudar.
Start of Multiple Alignment
There are 4 groups
Aligning… <- – -scores de grupos
Group 1: Sequences: 2 Score:4595
Group 2: Sequences: 3 Score:4566
Group 3: Sequences: 4 Score:4331
Group 4: Sequences: 5 Score:3566
Alignment Score 12746 <- – score final.
Personalmente, no soy un usuario de ClustalW, con lo que no me veo capaz de responder a tu pregunta. Normalmente un score, un e-value, etc… en bioinformática es una medida de cómo de bien o mal lo está haciendo un programa, pero no es un porcentaje de similitud. El score de ClustalW tiene en cuenta penalizaciones relacionadas con sustituciones de unos aminoácidos por otros: los más parecidos entre sí penalizan menos, los menos parecidos, más. Estas penalizaciones quedan descritas precisamente por la matriz de sustitución, con lo que si cambias de BLOSUM80 a otra BLOSUM o a una PAM cambiarán los scores que obtengas, y cambiará ligeramente su significado.
Buscando un poco en Internet he visto que la documentación que tiene el EBI sobre su servidor de ClustalW es muy amplia (ver http://www.ebi.ac.uk/clustalw/clustalw_help.html), y posiblemente se pueda extrapolar al programa de línea de comandos. En cualquier caso, te recomiendo que te descargues el artículo de ClustalW y te lo leas, aprovechando que está accesible de forma libre en PDF.
Además, seguro que algun@s de l@s lector@s de este blog podrán darte una respuesta mejor que la que te he dado.
Nada como ir a la fuente original:
Higgins D., Thompson J., Gibson T. Thompson J.D., Higgins D.G., Gibson T.J. (1994)
CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting,position-specific gap penalties and weight matrix choice.
Nucleic Acids Research 22: 4673-4680.
abstract
En el artículo mencionan que para calcular el score (de una secuencia a otra o de un alineamiento a otro), se toma el promedio de todos los scores de una matriz de peso del alineamiento. i.e. si tomas 2 alineamientos con 2 y 4 secuencias respectivamente, el score de cada posición es el promedio de 8(2×4) comparaciones.
El artículo es un clásico y es recomendable leerlo para entender como trabaja el famoso clustal.
saludos,
luis d.
http://ldalcaraz.blogspot.com