Los accession numbers de UniProt tendrán más longitud a partir de Junio

UniProt es una de las bases de datos de proteínas más curada (en su sección SW) y mantenida actualmente, y por eso es tomada como una de las bases de datos de referencia a nivel de información de proteínas. Desde que se hizo pública en Julio de 1986 Swiss-Prot (una de las integrantes de UniProt, y predecesora), cada entrada de la base de datos dispone de un accession number (AC en el formato SW) principal, que sirve para identificar de forma inequívoca cada entrada. También se almacena para cada entrada cero o más accession number secundarios, que fueron usados en el pasado para esta entrada, y que sirven tanto para mantener un historial dentro de UniProt como para poder relacionar material de investigación antiguo (por ejemplo, artículos) con los datos actuales.

Inicialmente, un identificador de Swiss-Prot o TrEMBL tenía el siguiente formato de 6 caracteres:

1 2 3 4 5 6
[O,P,Q] [0-9] [A-Z,0-9] [A-Z,0-9] [A-Z,0-9] [0-9]

lo que permitía tener 13996800 entradas diferentes (3·10·(26+10)3·10). Posteriormente, se permitieron más letras en la primera posición (y menos en la tercera):

1 2 3 4 5 6
[O,P,Q] [0-9] [A-Z,0-9] [A-Z,0-9] [A-Z,0-9] [0-9]
[A-N,R-Z] [0-9] [A-Z] [A-Z,0-9] [A-Z,0-9] [0-9]

lo cuál aumentó el número de identificadores diferentes a 91497600 ((23·10·26·(26+10)2·10) = 77500800).

Pero, en la versión de Mayo de 2014 ya hay 56555610 entradas (545388 de UniProt/SwissProt y 56010222 de UniProt/TrEMBL), eso sin contar los accession number secundarios de dichas entradas. Los encargados de UniProt han hecho sus propios cálculos de estimación del crecimiento de la base de datos y de uso de accession numbers, y se han dado cuenta que para finales de 2014 se iban a quedar sin accession numbers para proteínas nuevas. Así que, a partir del 11 de Junio podrá haber entradas que usen, además de estos formatos, accession number de 10 caracteres:

1 2 3 4 5 6 7 8 9 10
[O,P,Q] [0-9] [A-Z,0-9] [A-Z,0-9] [A-Z,0-9] [0-9]
[A-N,R-Z] [0-9] [A-Z] [A-Z,0-9] [A-Z,0-9] [0-9]
[A-N,R-Z] [0-9] [A-Z] [A-Z,0-9] [A-Z,0-9] [0-9] [A-Z] [A-Z,0-9] [A-Z,0-9] [0-9]

que proporcionarán (23·10·(26·(26+10)2·10)2) = 2.6114669568·1013 nuevos identificadores (una diferencia de 6 órdenes de magnitud), margen suficiente para varios años más.

Enlaces

Compartir:

Deja un comentario