{"id":14642,"date":"2006-03-02T01:39:00","date_gmt":"2006-03-02T01:39:00","guid":{"rendered":"http:\/\/weblogs.madrimasd.org\/\/bioinformatica\/archive\/2006\/03\/02\/14642.aspx"},"modified":"2006-03-02T01:39:00","modified_gmt":"2006-03-02T01:39:00","slug":"busquedas-en-la-web-semantica-bioinformatica-y-swoogle","status":"publish","type":"post","link":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/2006\/03\/02\/14642","title":{"rendered":"B\u00fasquedas en la web sem\u00e1ntica, bioinform\u00e1tica y Swoogle"},"content":{"rendered":"<p>En bioinform\u00e1tica, uno de los principales problemas que tenemos es la integraci\u00f3n de informaci\u00f3n, tanto a nivel sint\u00e1ctico como a nivel sem\u00e1ntico. El t\u00edpico problema sint\u00e1ctico es, por ejemplo, extraer de las bases de datos <a href=\"http:\/\/www.rcsb.org\/pdb\/\">PDB<\/a>, <a href=\"http:\/\/www.uniprot.org\/\">UniProt<\/a> y <a href=\"http:\/\/ncbi.nih.gov\/RefSeq\/\">RefSeq<\/a> las secuencias asociadas a cada entrada, traducirlas a la misma notaci\u00f3n y almacenarlas. Muchas veces nos olvidamos del problema sem\u00e1ntico, simplemente porque, o lo realizamos nosotros de forma inconsciente, o lo consideramos intratable. En el caso del ejemplo anterior, de forma no automatizada (vamos, ley\u00e9ndonos la documentaci\u00f3n) debemos saber d\u00f3nde est\u00e1n las secuencias dentro de las entradas de las distintas bases de datos, y que eso son secuencias, para poder automatizar mediante programa la integraci\u00f3n de las mismas.<br \/><!--more-->Desde hace tiempo se habla bastante en el \u00e1mbito acad\u00e9mico y empresarial sobre la <a href=\"http:\/\/es.wikipedia.org\/wiki\/Web_sem%C3%A1ntica\">web sem\u00e1ntica<\/a>. A grandes rasgos, la existencia de la web sem\u00e1ntica depende de que la informaci\u00f3n que pulule por la red deba estar conveniente estructurada para ser procesada de forma automatizada (por ejemplo, XML), y que cada uno de los componentes de esos trozos de informaci\u00f3n est\u00e9 etiquetado mediante una ontolog\u00eda de conceptos manejable de forma automatizada (por ejemplo, <a href=\"http:\/\/es.wikipedia.org\/wiki\/RDF\">RDF<\/a> + <a href=\"http:\/\/es.wikipedia.org\/wiki\/OWL\">OWL<\/a>), y si es posible, sus interrelaciones. En la web sem\u00e1ntica, la representaci\u00f3n de un resultado Blast identificar\u00eda d\u00f3nde est\u00e1n los fragmentos de secuencia, que son fragmentos de secuencia, que existe una relaci\u00f3n entre ellos basada en similaridad, y que dichas relaciones dependen de una compilaci\u00f3n de secuencias que ser\u00eda la base de datos sobre la que se ha realizado la b\u00fasqueda, entre otras cosas.<\/p>\n<p>M\u00e1s a\u00fan, cuando cualquier trozo de informaci\u00f3n se anota o etiqueta sem\u00e1nticamente tambi\u00e9n hay que indicar qu\u00e9 ontolog\u00eda se est\u00e1 usando. Por ejemplo, aunque los conceptos de qu\u00e9 son una <a href=\"http:\/\/es.wikipedia.org\/wiki\/H%C3%A9lice_alfa\">alfa-h\u00e9lice<\/a> o una <a href=\"http:\/\/es.wikipedia.org\/wiki\/Beta-l%C3%A1mina\">l\u00e1mina beta<\/a> est\u00e1n definidos en libros de texto, no queda tan claro en la vida real d\u00f3nde comienza o termina una alfa-h\u00e9lice. Distintos programas de predicci\u00f3n de estructura secundaria, e incluso distintos expertos llegan a interpretaciones similares, pero no iguales, del concepto aplicado los casos concretos.<\/p>\n<p>En m\u00e1s de una ocasi\u00f3n en la historia de la bioinform\u00e1tica se han intentado crear ontolog\u00edas que integraran todos los conceptos biol\u00f3gicos, pero casi siempre ha fallado el apoyo popular. Entre los casos exitosos encontramos los t\u00edpico sistema de <i>keywords<\/i> y <i>features<\/i> de diversas bases de datos (<a href=\"http:\/\/www.uniprot.org\/\">UniProt<\/a>, <a href=\"http:\/\/www.ncbi.nlm.nih.gov\/Genbank\/\">GenBank<\/a>, <a href=\"http:\/\/www.ebi.ac.uk\/embl\/\">EMBL<\/a>, <a href=\"http:\/\/www.rcsb.org\/pdb\/\">PDB<\/a>, etc&#8230;) o la anotaci\u00f3n mediante c\u00f3digos de <a href=\"http:\/\/es.wikipedia.org\/wiki\/Enzima\">actividad enzim\u00e1tica<\/a> (p.ej., base de datos <a href=\"http:\/\/www.expasy.ch\/enzyme\/\">ENZYME<\/a>), sin equivalencias posibles entre los conceptos usados para anotar en las distintas bases de datos. <a href=\"http:\/\/www.geneontology.org\/\">Gene Ontology<\/a> naci\u00f3 para poder unificar todos los conceptos biol\u00f3gicos existentes, usando adem\u00e1s est\u00e1ndares existentes como RDF para la representaci\u00f3n de los conceptos y sus interrelaciones. Actualmente podemos encotrar bases de datos como <a href=\"http:\/\/www.ebi.ac.uk\/interpro\/\">InterPro<\/a>, que anotan sus contenidos usando los conceptos de Gene Ontology.<\/p>\n<p>Por mi trabajo, hace poco me enter\u00e9 de la existencia de <a href=\"http:\/\/swoogle.umbc.edu\/\">Swoogle<\/a>. Es un sitio web similar a Google, pero orientado a b\u00fasquedas en la web sem\u00e1ntica. Adem\u00e1s, es un proyecto de investigaci\u00f3n en curso llevado a cabo por el <a href=\"http:\/\/ebiquity.umbc.edu\/\">ebiquity research group<\/a>, perteneciente al departamento de Ciencias de la Computaci\u00f3n e Ingenier\u00eda El\u00e9ctrica de la Universidad de Maryland, sin \u00e1nimo de lucro (como comenz\u00f3 Google). Al igual que Google, indexa informaci\u00f3n para poder encontrarla r\u00e1pidamente, pero en este caso a nivel sem\u00e1ntico, bas\u00e1ndose en ontolog\u00edas. De esa manera, si yo introdujera \u00abzinc finger sequence\u00bb, el sistema buscar\u00eda los conceptos sem\u00e1nticos asociados a los fragmentos de informaci\u00f3n que contuvieran dichas palabras, y deber\u00eda facilitarme la recuperaci\u00f3n de dicha informaci\u00f3n. Como he dicho al comienzo del p\u00e1rrafo, es un proyecto en curso, lo que significa que, aunque lo que he descrito es cierto, la informaci\u00f3n dentro de Swoogle no tiene por qu\u00e9 estar al d\u00eda.<\/p>\n<p>La potencia de la web semantica nos puede servir en bioinform\u00e1tica para extraer informaci\u00f3n relacionada de una manera que nunca se nos hubiera ocurrido. El inconveniente es que gran parte de las fuentes de informaci\u00f3n bioinform\u00e1ticas (las bases de datos y los programas) no proporcionan informaci\u00f3n estructurada o anotada. \u00bfCu\u00e1nto tardaremos en llegar a una integraci\u00f3n sem\u00e1ntica m\u00ednimamente decente en el \u00e1rea de conocimiento de la bioinform\u00e1tica y ciencias de la vida?<\/p>\n","protected":false},"excerpt":{"rendered":"<p>En bioinform\u00e1tica, uno de los principales problemas que tenemos es la integraci\u00f3n de informaci\u00f3n, tanto a nivel sint\u00e1ctico como a nivel sem\u00e1ntico. El t\u00edpico problema sint\u00e1ctico es, por ejemplo, extraer de las bases de datos PDB, UniProt y RefSeq las secuencias asociadas a cada entrada, traducirlas a la misma notaci\u00f3n y almacenarlas. Muchas veces nos olvidamos del problema sem\u00e1ntico, simplemente porque, o lo realizamos nosotros de forma inconsciente, o lo consideramos intratable. En el caso del ejemplo anterior, de forma no automatizada (vamos, ley\u00e9ndonos la documentaci\u00f3n) debemos saber d\u00f3nde est\u00e1n las secuencias dentro de las entradas de las distintas bases\u2026<\/p>\n","protected":false},"author":25,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"ngg_post_thumbnail":0},"categories":[187,189],"tags":[],"blocksy_meta":{"styles_descriptor":{"styles":{"desktop":"","tablet":"","mobile":""},"google_fonts":[],"version":4}},"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/posts\/14642"}],"collection":[{"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/users\/25"}],"replies":[{"embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/comments?post=14642"}],"version-history":[{"count":0,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/posts\/14642\/revisions"}],"wp:attachment":[{"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/media?parent=14642"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/categories?post=14642"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/bioinformatica\/wp-json\/wp\/v2\/tags?post=14642"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}