{"id":145374,"date":"2014-09-27T13:08:25","date_gmt":"2014-09-27T12:08:25","guid":{"rendered":"http:\/\/www.madrimasd.org\/blogs\/universo\/?p=145374"},"modified":"2014-09-27T13:08:25","modified_gmt":"2014-09-27T12:08:25","slug":"big-data-data-mining-metaanalisis-y-smartpapers","status":"publish","type":"post","link":"https:\/\/www.madrimasd.org\/blogs\/universo\/2014\/09\/27\/145374","title":{"rendered":"Big data, Data mining, Metaan\u00e1lisis y Smartpapers"},"content":{"rendered":"<p align=\"center\"><img decoding=\"async\" class=\"ngg-singlepic ngg-center\" src=\"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-content\/blogs.dir\/42\/files\/1123\/data-mining.jpg\" alt=\"data-mining\" \/><\/p>\n<p align=\"center\"><a href=\"http:\/\/technology.desktopnexus.com\/wallpaper\/1627166\/\"><span style=\"color: #0000ff;\">Data mining Fuente: 1 &amp; 1<\/span><\/a><\/p>\n<p style=\"text-align: justify;\"><span style=\"color: #000000;\">Cuando hablamos de <\/span><a title=\"Enlace permanente: Filosof\u00edas Radicales de la Ciencia: Las Modas en la Ciencia Contempor\u00e1nea\" href=\"https:\/\/www.madrimasd.org\/blogs\/universo\/2007\/07\/14\/69915\"><span style=\"color: #0000ff;\">las Modas en la Ciencia Contempor\u00e1nea<\/span><\/a><span style=\"color: #000000;\">, ya comentamos que, <span style=\"color: #3366ff;\"><strong>en el mundillo de la investigaci\u00f3n actual, se vende la piel del oso antes de cazarlo. Al amparo de internet han surgido las herramientas que dan t\u00edtulo al post, alcanzando una popularidad explosiva<\/strong><\/span>.\u00a0Sin embargo nadie ha estudiado las bondades y debilidades de tales procedimientos. <span style=\"color: #3366ff;\"><strong>Se parte de que son superiores a las b\u00fasquedas personales y punto. \u00bfCierto o falso?. Digamos que m\u00e1s de lo segundo que de lo primero<\/strong>, <strong>al menos hoy por hoy, si<\/strong> <\/span>las comparamos con la b\u00fasqueda convencional de un experto versado\u00a0en el tema, y una red neuronal de billones de unidades y muchas m\u00e1s conexiones (es decir <span style=\"color: #3366ff;\"><strong>nuestro cerebro<\/strong><\/span>) que los ingenios tecnol\u00f3gicos actuales,\u00a0hoy por hoy. Nuestra mente alberga un\u00a0<strong><span style=\"color: #3366ff;\">hardware actualmente inalcanzable por la inteligencia del silicio<\/span><\/strong>. <\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"color: #000000;\"><span style=\"color: #3366ff;\"><strong>Aumenta en n\u00famero de \u00ab<em>papers<\/em>\u00bb en los cuales sus investigadores alardean de modernidad por usar estas herramientas<\/strong> <\/span>en sus b\u00fasquedas por Internet. M\u00e1s aun\u00a0<strong><span style=\"color: #3366ff;\">intentan dar popularidad a sus estudios redactando sentencias de la siguiente guisa<\/span><\/strong>: \u201cante el ingente volumen de datos disponibles en Internet, es decir <strong><em><span style=\"color: #3366ff;\">big data<\/span><\/em><\/strong>, Realizamos un <span style=\"color: #3366ff;\"><strong><em>data mining<\/em><\/strong> <\/span>(miner\u00eda de datos), con vistas a separar el grano de la paja. As\u00ed obtuvimos una selecci\u00f3n de los datos (art\u00edculos, portales de\u00a0la Web etc.) m\u00e1s relevantes para nuestro estudio sobre los que finalmente realizamos un novedoso\u00a0<span style=\"color: #3366ff;\"><strong><em>Metaan\u00e1lisis<\/em><\/strong><\/span>. Y as\u00ed pudimos concluir que&#8230;\u201d \u00a1Que guay!. <span style=\"color: #3366ff;\"><strong>El lector menos versado se quedar\u00e1 obnubilado por<\/strong> <\/span>no poder o saber usar estas herramientas de la inform\u00e1ticas, sinti\u00e9ndose anticuado u obsoleto. <\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"color: #000000;\">Sin embargo, <strong><span style=\"color: #3366ff;\">si uno analiza tales publicaciones en el \u00e1mbito de la ciencia, al final detectar\u00e1 que<\/span> <\/strong>con tan portentosas herramientas se han logrado detectar\u00a0unas decenas de sitios,<em> <span style=\"color: #3366ff;\"><strong>papers<\/strong><\/span><\/em>, bases de datos, etc. en cada publicaci\u00f3n que alardea de aplicarlas. <span style=\"color: #3366ff;\"><strong>Ahora volvamos a un pasado tan reciente como trasnochado. Cuando un cient\u00edfico realizaba una recopilaci\u00f3n o un art\u00edculo de revisi\u00f3n bibliogr\u00e1fica, alcanzaba finalmente un n\u00famero de fuentes de informaci\u00f3n relevante<\/strong><\/span>, m\u00e1s o menos semejante a las. t\u00e9cnolog\u00edas mentadas de rabiosa modernidad.\u00a0Eso s\u00ed, <strong><span style=\"color: #3366ff;\">que nadie dude como actualmente las revistas de prestigio prefieren los m\u00e9todos superferol\u00edticos aludidos que el estudio tradicional, \u201ccon independencia\u201d de la calidad de los mismos<\/span><\/strong>. Es mejor aparentar ser posmoderno que llevar a cabo una investigaci\u00f3n de calidad. \u00a0<em>Big data<\/em>, no significa m\u00e1s que eso, gran volumen de informaci\u00f3n. <em>Data mining<\/em>, reemplaza a las b\u00fasquedas antiguas, ya sea en Internet o en una biblioteca, en donde el conocimiento del investigador versado en el tema es reemplazado por un ingenio smart (es decir tonto de remate), para a la postre llevar a cabo finalmente una serie de an\u00e1lisis estad\u00edsticos (es decir un <em>Metaan\u00e1lisis<\/em>) que con anterioridad realizaban con\u00a0paquetes de estad\u00edstica, etc. <\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"color: #000000;\"><span style=\"color: #3366ff;\"><strong>Digamos que tales sistemas de b\u00fasqueda autom\u00e1tica, a\u00fan se encuentran muy lejos de alcanzar el conocimiento humano de un experto que sabe sobradamente que el diablo<\/strong> <\/span>(o el oro) <strong><span style=\"color: #3366ff;\">se encuentra en los detalles, a menudo, aparentemente insignificantes<\/span><\/strong>. Obviamente para colegas inexpertos, estos sistemas autom\u00e1ticos les pueden resultar de alguna utilidad, empero, <strong><span style=\"color: #3366ff;\">no pueden reemplazar la complejidad de nuestras b\u00fasquedas basadas en una red neuronal llamada cerebro con billones o trillones de conexiones<\/span><\/strong>. Eso s\u00ed, <strong><span style=\"color: #3366ff;\">cuando falla el procedimiento, como nos muestra la noticia de hoy comienzan a cuestionarse las bondades de estas tecnolog\u00edas<\/span><\/strong>, apelando a\u00a0argumentos muy semejantes a los que aqu\u00ed\u00a0he expuesto. No hace falta ser ning\u00fan sabio para haberlo pensado desde un primer momento. \u00a0<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"color: #000000;\">Buscar en Internet es un arte. Uno comienza lentamente con muchos problemas, pero a base de pr\u00e1ctica va alcanzando una mayor destreza e intuici\u00f3n. Personalmente ahora realizo mucho mejores b\u00fasquedas que anta\u00f1o . Y el punto de inflexi\u00f3n fue justamente la necesidad de encontrar informaci\u00f3n e im\u00e1genes que proporcionar a los lectores de este blog. \u00a0<strong><span style=\"color: #3366ff;\">En materia de investigaci\u00f3n suele dar igual perder unas horas m\u00e1s si el producto alcanzado resulta ser mucho mejor<\/span><\/strong>. \u00a0<span style=\"color: #3366ff;\"><strong>No se trata de criticar los conceptos de <em>Big data, Data mining y Metaan\u00e1lisis<\/em><\/strong><\/span>, intr\u00ednsecamente, sino de denunciar claro y alto que <strong><span style=\"color: #3366ff;\">una cuesti\u00f3n son estos conceptos y otra bien distinta que con las herramientas actuales podamos reemplazar la mente y tes\u00f3n del experto por unos ingenios a\u00fan muy rudimentarios<\/span><\/strong>. Sin embargo, lo peor es que hay mucho descerebrado que debe hacer uso de las redes neuronales y bla, bla, bla, con vistas a encubrir su ignorancia con un est\u00fapido manto de tecnolog\u00eda que pretenden confundir con sabidur\u00eda<strong>.<span style=\"color: #3366ff;\"> Quiz\u00e1s en un\u00a0 futuro (\u2026) tal vez actualmente para ciertos prop\u00f3sitos muy concretos (\u2026) Sin embargo hoy por hoy<\/span><\/strong> la \u201c<em>smart science<\/em>\u201d <strong><span style=\"color: #3366ff;\">no es m\u00e1s que una moda<\/span><\/strong>, a la que est\u00fapidamente se adhieren algunos colegas como adolescentes, ante la ropa o el telefonillo de moda.<span style=\"color: #3366ff;\"> <strong>Y por desgracia, se publica m\u00e1s f\u00e1cilmente un <em>smart paper<\/em> que un trabajo de revisi\u00f3n o inventario bien hecho<\/strong><\/span>. \u00a0Este es el cuento de caperucita roja. <strong><span style=\"color: #3366ff;\">Os muestro primero las definiciones de tales conceptos de moda supersexy, para pasar seguidamente al debate que se ha suscitado tras un estrepitoso fracaso de Google que tan solo pone en evidencia las enormes flaquezas de estas smart tonter\u00edas<\/span><\/strong>, hoy por hoy. Ma\u00f1ana ya veremos (\u2026)<\/span><\/p>\n<p><span style=\"color: #008000;\"><strong>Juan Jos\u00e9 Ib\u00e1\u00f1ez<\/strong><\/span><\/p>\n<p><!--more--><\/p>\n<p style=\"text-align: justify;\"><span style=\"color: #800000;\"><strong>Definiciones de Wilikipedia<\/strong><\/span><\/p>\n<p style=\"text-align: justify;\"><strong><span style=\"color: #800000;\">Big Data<\/span><\/strong><\/p>\n<p style=\"text-align: justify;\"><span style=\"color: #000000;\">\u201c<\/span><a href=\"http:\/\/es.wikipedia.org\/wiki\/Big_data\"><span style=\"color: #0000ff;\">Big data<\/span><\/a><span style=\"color: #000000;\">\u00bb es un t\u00e9rmino aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tama\u00f1os del \u00abbig data\u00bb se hallan constantemente en aumento. En 2012 se dimensionaba su tama\u00f1o en una docena de <\/span><a title=\"Terabyte\" href=\"http:\/\/es.wikipedia.org\/wiki\/Terabyte\"><span style=\"color: #0000ff;\">terabytes<\/span><\/a><span style=\"color: #000000;\"> hasta varios <\/span><a title=\"Petabyte\" href=\"http:\/\/es.wikipedia.org\/wiki\/Petabyte\"><span style=\"color: #0000ff;\">petabytes<\/span><\/a><span style=\"color: #000000;\"> de <\/span><a title=\"Dato\" href=\"http:\/\/es.wikipedia.org\/wiki\/Dato\"><span style=\"color: #0000ff;\">datos<\/span><\/a><span style=\"color: #000000;\"> en un \u00fanico <em>data set<\/em>. (\u2026)<\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"color: #800000;\"><strong>Data mining o Miner\u00eda de datos<\/strong><\/span><\/p>\n<p style=\"text-align: justify;\"><span style=\"color: #000000;\">La <\/span><a href=\"http:\/\/es.wikipedia.org\/wiki\/Miner\u00eda_de_datos\"><span style=\"color: #0000ff;\">miner\u00eda de datos o exploraci\u00f3n de datos<\/span><\/a><span style=\"color: #000000;\"> (es la etapa de an\u00e1lisis de \u00abKnowledge Discovery in Databases\u00bb o KDD) es un campo de las <\/span><a title=\"Ciencias de la computaci\u00f3n\" href=\"http:\/\/es.wikipedia.org\/wiki\/Ciencias_de_la_computaci%C3%B3n\"><span style=\"color: #0000ff;\">ciencias de la computaci\u00f3n<\/span><\/a><span style=\"color: #000000;\"> referido al proceso que intenta descubrir patrones en grandes vol\u00famenes de conjuntos de datos. Utiliza los m\u00e9todos de la inteligencia artificial, <\/span><a title=\"Aprendizaje autom\u00e1tico\" href=\"http:\/\/es.wikipedia.org\/wiki\/Aprendizaje_autom%C3%A1tico\"><span style=\"color: #0000ff;\">aprendizaje autom\u00e1tico<\/span><\/a><span style=\"color: #000000;\">, <\/span><a title=\"Estad\u00edstica\" href=\"http:\/\/es.wikipedia.org\/wiki\/Estad%C3%ADstica\"><span style=\"color: #0000ff;\">estad\u00edstica<\/span><\/a><span style=\"color: #000000;\"> y sistemas de <\/span><a title=\"Bases de datos\" href=\"http:\/\/es.wikipedia.org\/wiki\/Bases_de_datos\"><span style=\"color: #0000ff;\">bases de datos<\/span><\/a><span style=\"color: #000000;\">. El objetivo general del proceso de miner\u00eda de datos consiste en extraer informaci\u00f3n de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Adem\u00e1s de la etapa de an\u00e1lisis en bruto, que involucra aspectos de bases de datos y <\/span><a title=\"Gesti\u00f3n de datos\" href=\"http:\/\/es.wikipedia.org\/wiki\/Gesti%C3%B3n_de_datos\"><span style=\"color: #0000ff;\">gesti\u00f3n de datos<\/span><\/a><span style=\"color: #000000;\">, <\/span><a title=\"Procesamiento de datos\" href=\"http:\/\/es.wikipedia.org\/wiki\/Procesamiento_de_datos\"><span style=\"color: #0000ff;\">procesamiento de datos<\/span><\/a><span style=\"color: #000000;\">, el modelo y las consideraciones de inferencia, m\u00e9tricas de Intereses, consideraciones de la <\/span><a title=\"Teor\u00eda de la complejidad computacional\" href=\"http:\/\/es.wikipedia.org\/wiki\/Teor%C3%ADa_de_la_complejidad_computacional\"><span style=\"color: #0000ff;\">Teor\u00eda de la complejidad computacional<\/span><\/a><span style=\"color: #000000;\">, post-procesamiento de las estructuras descubiertas, la visualizaci\u00f3n y actualizaci\u00f3n en l\u00ednea(\u2026)<\/span><\/p>\n<p style=\"text-align: justify;\"><a href=\"http:\/\/es.wikipedia.org\/wiki\/Metaan\u00e1lisis\"><span style=\"color: #0000ff;\">Metaan\u00e1lisis<\/span><\/a><\/p>\n<p style=\"text-align: justify;\"><span style=\"color: #000000;\">El <strong>metaan\u00e1lisis<\/strong> es un conjunto de herramientas estad\u00edsticas, que son \u00fatiles para sintetizar los datos de una colecci\u00f3n de estudios; dicho meta-an\u00e1lisis, inicia con una estimaci\u00f3n de cierto efecto recopilatorio (como la diferencia media, la raz\u00f3n de riesgo, o la correlaci\u00f3n) de cada estudio.<\/span><sup><a href=\"http:\/\/es.wikipedia.org\/wiki\/Metaan%C3%A1lisis#cite_note-1\"><span style=\"color: #0000ff;\">[1]<\/span><\/a><\/sup><span style=\"color: #000000;\"> El metaan\u00e1lisis permite ver estos efectos en contexto: si el <\/span><a title=\"Tama\u00f1o del efecto\" href=\"http:\/\/es.wikipedia.org\/wiki\/Tama%C3%B1o_del_efecto\"><span style=\"color: #0000ff;\">tama\u00f1o del efecto<\/span><\/a><span style=\"color: #000000;\"> es consistente, el efecto del tratamiento puede ser reportado como fuerte; y el tama\u00f1o del efecto puede estimarse m\u00e1s preciso que con un solo estudio. Si el tama\u00f1o del efecto var\u00eda, esa variaci\u00f3n puede ser descrita y, potencialmente, explicada.<\/span><\/p>\n<p style=\"text-align: justify;\"><strong><a href=\"http:\/\/www.madrimasd.org\/informacionidi\/noticias\/noticia.asp?id=59952&amp;origen=notiweb&amp;dia_suplemento=viernes\">El gripazo de Google muestra las flaquezas del big data<\/a><\/strong><\/p>\n<p style=\"text-align: justify;\"><strong>El <em>big data<\/em> promet\u00eda soluciones, respuestas. La formidable capacidad de procesar ingentes cantidades de datos permite descubrir informaci\u00f3n desconocida, perspectivas sorprendentes, conclusiones s\u00f3lidas. <\/strong><\/p>\n<p style=\"text-align: justify;\">FUENTE | <a href=\"http:\/\/esmateria.com\/\" target=\"_blank\">Materia Publicaciones Cient\u00edficas<\/a> 8\/03\/2014<\/p>\n<p style=\"text-align: justify;\"><strong>En 2009 se produjo un gran acontecimiento en este sentido: la revista <em>Nature<\/em> public\u00f3 un estudio que mostraba c\u00f3mo las consultas en el motor de b\u00fasqueda de Google se hab\u00edan traducido en una predicci\u00f3n casi exacta de la incidencia de la gripe en cada regi\u00f3n de EE.UU.<\/strong><\/p>\n<p><strong>El <em>big data<\/em> reluc\u00eda en las portadas<\/strong>, una herramienta que ayudar\u00eda a conservar la salud de la gente mejor que los epidemi\u00f3logos. <strong>Sin embargo, sus \u00faltimas previsiones han duplicado el dato real ofrecido por las autoridades sanitarias<\/strong>. En un lustro, <strong>Google pas\u00f3 de clavar el pron\u00f3stico a fallar como escopeta de feria<\/strong>.<\/p>\n<p><strong>\u00bfQu\u00e9 ha ocurrido en estos a\u00f1os que ha llevado al fracaso de <em>Google Flu Trends<\/em><\/strong> (<em>tendencias de la gripe<\/em>)? <strong>Hay quien directamente lo atribuye a la arrogancia del <em>big data<\/em> y la ausencia de esp\u00edritu cient\u00edfico de Google, pero no conviene perder de vista todos los matices si queremos sacar conclusiones \u00fatiles. \u00bfCu\u00e1les son las flaquezas del big <em>data<\/em> que muestra este caso y hasta qu\u00e9 punto son representativas de lo que ocurre con otros or\u00e1culos basados en grandes cantidades de informaci\u00f3n social, como ocurre con la capacidad predictiva de Twitter<\/strong>?<\/p>\n<p>Los expertos se\u00f1alan varios puntos clave, como <strong>la opacidad de las empresas que cuentan con mayores bases de datos, los cambios del algoritmo, cierta desconexi\u00f3n al confiar ciegamente en la cantidad de datos olvidando el m\u00e9todo cient\u00edfico, las dificultades para predecir comportamientos sociales, la facilidad para manipular desde el exterior la cosecha de informaci\u00f3n y que hoy somos m\u00e1s exigentes con unos resultados que hace a\u00f1os parec\u00edan formidables<\/strong>.<\/p>\n<p><strong>Repasemos lo ocurrido con <em>Flu Trends<\/em> para<\/strong> visualizar <strong>su tal\u00f3n de Aquiles<\/strong>. La gigantesca multinacional que (casi) todo lo sabe, pod\u00eda cabalgar sobre millones de b\u00fasquedas relacionadas con la gripe -&#8216;s\u00edntomas gripe&#8217;, &#8216;virus gripe&#8217;, etc\u00e9tera- para decirnos casi al instante si habr\u00eda colas en las urgencias en determinado punto del pa\u00eds. Mientras, los sistemas predictivos de los <a title=\"Centros para el Control y la Prevenci\u00f3n de Enfermedades de EE.UU.\" href=\"http:\/\/www.cdc.gov\/spanish\/\" target=\"_blank\">Centros para el Control y la Prevenci\u00f3n de Enfermedades de EE.UU.<\/a> (CDC), necesitaban entre una o dos semanas para recoger la informaci\u00f3n necesaria.<\/p>\n<p><strong>El art\u00edculo en <em>Nature<\/em> que consagr\u00f3 a <em>Flu Trends<\/em> lo firmaron conjuntamente Google y los CDC (PDF).<\/strong> <strong><em>The New York Times<\/em> hablaba de \u00abun matrimonio fruct\u00edfero\u00bb entre la medicina y el comportamiento de las masas. \u00ab<\/strong>Desde un punto de vista tecnol\u00f3gico, es solo el comienzo\u00bb, dijo el presidente de Google, Eric Schmidt. <strong>Desde entonces, el sistema ha sobreestimado constantemente las<\/strong> visitas a centros m\u00e9dicos relacionadas con la gripe, siendo especialmente inexacto en los picos de la temporada de gripe, cuando m\u00e1s \u00fatiles son las previsiones. En la temporada 2012-2013, predijo el doble de visitas al m\u00e9dico que las registradas por los CDC y en la 2011-2012 se sobreestim\u00f3 en m\u00e1s de un 50%: <strong>no atina desde agosto de 2011<\/strong>.<\/p>\n<p><strong>LA ARROGANCIA DEL &#8216;<em>BIG DATA&#8217;<br \/>\n<\/em><br \/>\n<\/strong><strong>Las primeras veces que fall\u00f3, Google lo quiso atribuir a una maniobra malintencionada: no es dif\u00edcil alterar el resultado, tan solo hay que fingir que se busca informaci\u00f3n sobre esta enfermedad<\/strong>. Adem\u00e1s, se dec\u00eda desde la empresa, el inter\u00e9s que despert\u00f3<em> Flu Trends<\/em> en los medios provoc\u00f3 que la herramienta recibiera una importante atenci\u00f3n por parte del p\u00fablico, lo que termin\u00f3 por falsear el resultado.<\/p>\n<p><strong>Varios expertos en big data publicaron recientemente en<\/strong> <a title=\"Science\" href=\"http:\/\/www.sciencemag.org\/content\/343\/6176\/1203.summary?sid=690f77b1-7d43-4313-a992-2c98f6275ca9\" target=\"_blank\">Science<\/a> <strong>un an\u00e1lisis de los fallos de<em> Google Flu Trends<\/em>, que consideraban una par\u00e1bola de lo que est\u00e1 ocurriendo en su campo. \u00abLa arrogancia del <em>big data\u00bb<\/em>, arrancan, \u00abes la suposici\u00f3n impl\u00edcita de que pueden sustituir, en lugar de complementar, a la recopilaci\u00f3n de datos y el an\u00e1lisis tradicional\u00bb. \u00abLa cantidad de datos no significa que uno puede ignorar los problemas fundamentales de la medici\u00f3n<\/strong>\u00ab, a\u00f1aden estos autores, liderados por David Lazer, de la <a title=\"Universidad de Harvard\" href=\"http:\/\/www.harvard.edu\/\" target=\"_blank\">Universidad de Harvard<\/a> (EE.UU.).<\/p>\n<p><strong>Google tiene m\u00e1s datos que nadie y, en muchas ocasiones, el debate sobre el valor del <em>big data<\/em> se centra \u00fanicamente en la cantidad. \u00abEs verdad que se da un poco de arrogancia del tipo &#8216;mi base de datos es m\u00e1s grande que la tuya&#8217;. Muchas veces se queda en segundo plano la importancia del proceso de transformaci\u00f3n del dato en valor\u00bb,<\/strong> reconoce Esteban Moro, investigador de la <a title=\"Universidad Carlos III de Madrid\" href=\"http:\/\/www.uc3m.es\/\" target=\"_blank\">Universidad Carlos III de Madrid<\/a>.<\/p>\n<p><strong>TERABYTES DE DATOS<br \/>\n<\/strong><br \/>\n\u00ab<strong>Esto es algo que sabe cualquier persona que se dedique a aplicar el m\u00e9todo cient\u00edfico, el dato en s\u00ed no tiene ning\u00fan valor<\/strong>\u00ab, insiste Moro. \u00ab<strong>Antes, los datos cab\u00edan en una hoja. Pero ahora, por tener terabytes de datos, no tienes mejor informaci\u00f3n\u00bb. \u00bfCu\u00e1l ha sido el problema de Google con la transformaci\u00f3n de los datos? Lazer apuesta en <em>Science<\/em> por los distintos (cientos, miles) de cambios que el propio Google introduce en el algoritmo de su buscador. \u00abLa forma en que se presentan los resultados tambi\u00e9n cambia la forma de buscarlos<\/strong>\u00ab, resume Moro, en referencia a <strong>novedades como el autocompletado del buscador, que dificulta conocer con exactitud lo que iba a buscar el usuario<\/strong>. Quiz\u00e1 el internauta iba a teclear \u00abgripe en ancianos\u00bb, preocupado por su abuelo, pero al terminar de escribir la primera palabra el buscador le sugiri\u00f3 otras opciones que alteraron su intenci\u00f3n.<\/p>\n<p><strong>\u00abLo l\u00f3gico es que lo hubieran refinado<\/strong>\u00ab, reflexiona Daniel Gayo, investigador de la Universidad de Oviedo. \u00ab<strong>En este campo, los cambios m\u00e1s triviales pueden afectar tremendamente: la forma de ordenar los resultados, la interfaz, el algoritmo&#8230; Es posible que no haya colaboraci\u00f3n entre equipos, que dentro de la propia empresa no haya comunicaci\u00f3n entre los departamentos responsables de los algoritmos del buscador y de la confecci\u00f3n de<em> Flu Trends<\/em><\/strong><em>\u00ab<\/em>, sugiere Gayo.<\/p>\n<p><strong>EL SER HUMANO ES IMPREVISIBLE<br \/>\n<\/strong><br \/>\nAdem\u00e1s, Gayo recuerda que \u00abel <em>big data<\/em> es un subproducto, hay que vigilar c\u00f3mo se origina\u00bb, en alusi\u00f3n a esas b\u00fasquedas: los internautas no siempre se van a comportar como deber\u00edan, cumpliendo como simples sensores, \u00absino por antojos, modas y disfrutando de su albedr\u00edo\u00bb. Moro coincide en que los comportamientos sociales son mucho m\u00e1s dif\u00edciles de calibrar: en su d\u00eda a d\u00eda, este investigador se sirve de los datos para la predicci\u00f3n del fraude o las bajas en los servicios telef\u00f3nicos y \u00abse trata de un comportamiento que cambia permanentemente, de un d\u00eda para otro\u00bb. Lo que serv\u00eda en 2009 para vaticinar estornudos, en 2013 puede estar desfasad\u00edsimo.<\/p>\n<p>Un gran obst\u00e1culo que identifica Moro es el de saltar de la correlaci\u00f3n a la predicci\u00f3n: \u00abAunque encontremos correlaciones significativas, pueden no ser suficientemente buenas para aventurarse a realizar una predicci\u00f3n\u00bb. Y en el momento en que las encontremos, apunta Gayo, los interesados har\u00e1n lo posible para manipularlo: \u00abEs lo que ocurre en pol\u00edtica y las predicciones electorales en Twitter, todos van a querer cambiar el resultado a su favor\u00bb. Otro de los problemas cient\u00edficos que plantea la experiencia de <em>Flu Trends<\/em> es el de la replicabilidad de los resultados y la falta de transparencia. \u00bfQui\u00e9n va a comprobar sus n\u00fameros y predicciones si ni siquiera sabemos cu\u00e1les son las b\u00fasquedas que se tienen en cuenta para hacerlas? Google es una empresa y sus datos ata\u00f1en a la privacidad de millones de personas. En <em>Science<\/em> critican que los materiales que aportan desde <em>Flu Trends<\/em> no cumplen con los est\u00e1ndares cient\u00edficos emergentes y que, no obstante, hay otros que s\u00ed se podr\u00edan liberar para ayudar a la ciencia.<\/p>\n<p><strong>FALTA DE TRANSPARENCIA<br \/>\n<\/strong><br \/>\n\u00abTe tienes que creer que funciona, dar por buenos los datos que proporcionan las empresas. Sin una m\u00ednima transparencia, no se puede hacer ciencia a partir de su trabajo, que ser\u00eda lo deseable\u00bb, se\u00f1ala el investigador de la Universidad de Oviedo. Gayo considera que, en este caso, los autores de <em>Science<\/em> se han podido pasar de frenada elevando a categor\u00eda este fallo: m\u00e1s all\u00e1 de EE.UU., <em>Flu Trends<\/em> s\u00ed funciona para numerosos pa\u00edses y los picos coinciden con la realidad, aunque no en tama\u00f1o. \u00abHace unos a\u00f1os sorprendi\u00f3 gratamente el descubrimiento, pero ahora somos m\u00e1s exigentes con los resultados\u00bb, resume. Es decir, tampoco conviene ser reduccionistas y que la mala experiencia de Flu Trends nos lleve a decir que \u00abel <em>big data<\/em> no merece la pena\u00bb, como se\u00f1ala el experto Kaiser Fung en la revista <em>Harvard Business Review<\/em>. Lazer y los coautores de su texto creen que falta coordinaci\u00f3n entre el big data y la confecci\u00f3n de datos de toda la vida. Gayo opina que, tal y como se plantea en <em>Science<\/em>, el caso no es generalizable como un inconveniente com\u00fan para la ciencia de los datos. Y Moro, que admite que \u00abmucha gente se dej\u00f3 llevar por el entusiasmo\u00bb, sugiere que finalmente el factor humano es m\u00e1s determinante de lo que pens\u00e1bamos: \u00abUn electr\u00f3n siempre va a tener la misma carga, pero las personas cambian\u00bb.<\/p>\n<p><strong>Autor:<\/strong> \u00a0 Javier Salas<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Data mining Fuente: 1 &amp; 1 Cuando hablamos de las Modas en la Ciencia Contempor\u00e1nea, ya comentamos que, en el mundillo de la investigaci\u00f3n actual, se vende la piel del oso antes de cazarlo. Al amparo de internet han surgido las herramientas que dan t\u00edtulo al post, alcanzando una popularidad explosiva.\u00a0Sin embargo nadie ha estudiado las bondades y debilidades de tales procedimientos. Se parte de que son superiores a las b\u00fasquedas personales y punto. \u00bfCierto o falso?. Digamos que m\u00e1s de lo segundo que de lo primero, al menos hoy por hoy, si las comparamos con la b\u00fasqueda convencional de\u2026<\/p>\n","protected":false},"author":26,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"ngg_post_thumbnail":0},"categories":[13638,7651,615,606],"tags":[27864,47567,27865,47566],"blocksy_meta":{"styles_descriptor":{"styles":{"desktop":"","tablet":"","mobile":""},"google_fonts":[],"version":4}},"aioseo_notices":[],"_links":{"self":[{"href":"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-json\/wp\/v2\/posts\/145374"}],"collection":[{"href":"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-json\/wp\/v2\/users\/26"}],"replies":[{"embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-json\/wp\/v2\/comments?post=145374"}],"version-history":[{"count":6,"href":"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-json\/wp\/v2\/posts\/145374\/revisions"}],"predecessor-version":[{"id":146153,"href":"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-json\/wp\/v2\/posts\/145374\/revisions\/146153"}],"wp:attachment":[{"href":"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-json\/wp\/v2\/media?parent=145374"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-json\/wp\/v2\/categories?post=145374"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.madrimasd.org\/blogs\/universo\/wp-json\/wp\/v2\/tags?post=145374"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}