data-mining

Data mining Fuente: 1 & 1

Cuando hablamos de las Modas en la Ciencia Contemporánea, ya comentamos que, en el mundillo de la investigación actual, se vende la piel del oso antes de cazarlo. Al amparo de internet han surgido las herramientas que dan título al post, alcanzando una popularidad explosiva. Sin embargo nadie ha estudiado las bondades y debilidades de tales procedimientos. Se parte de que son superiores a las búsquedas personales y punto. ¿Cierto o falso?. Digamos que más de lo segundo que de lo primero, al menos hoy por hoy, si las comparamos con la búsqueda convencional de un experto versado en el tema, y una red neuronal de billones de unidades y muchas más conexiones (es decir nuestro cerebro) que los ingenios tecnológicos actuales, hoy por hoy. Nuestra mente alberga un hardware actualmente inalcanzable por la inteligencia del silicio.

Aumenta en número de «papers» en los cuales sus investigadores alardean de modernidad por usar estas herramientas en sus búsquedas por Internet. Más aun intentan dar popularidad a sus estudios redactando sentencias de la siguiente guisa: “ante el ingente volumen de datos disponibles en Internet, es decir big data, Realizamos un data mining (minería de datos), con vistas a separar el grano de la paja. Así obtuvimos una selección de los datos (artículos, portales de la Web etc.) más relevantes para nuestro estudio sobre los que finalmente realizamos un novedoso Metaanálisis. Y así pudimos concluir que…” ¡Que guay!. El lector menos versado se quedará obnubilado por no poder o saber usar estas herramientas de la informáticas, sintiéndose anticuado u obsoleto.

Sin embargo, si uno analiza tales publicaciones en el ámbito de la ciencia, al final detectará que con tan portentosas herramientas se han logrado detectar unas decenas de sitios, papers, bases de datos, etc. en cada publicación que alardea de aplicarlas. Ahora volvamos a un pasado tan reciente como trasnochado. Cuando un científico realizaba una recopilación o un artículo de revisión bibliográfica, alcanzaba finalmente un número de fuentes de información relevante, más o menos semejante a las. técnologías mentadas de rabiosa modernidad. Eso sí, que nadie dude como actualmente las revistas de prestigio prefieren los métodos superferolíticos aludidos que el estudio tradicional, “con independencia” de la calidad de los mismos. Es mejor aparentar ser posmoderno que llevar a cabo una investigación de calidad.  Big data, no significa más que eso, gran volumen de información. Data mining, reemplaza a las búsquedas antiguas, ya sea en Internet o en una biblioteca, en donde el conocimiento del investigador versado en el tema es reemplazado por un ingenio smart (es decir tonto de remate), para a la postre llevar a cabo finalmente una serie de análisis estadísticos (es decir un Metaanálisis) que con anterioridad realizaban con paquetes de estadística, etc.

Digamos que tales sistemas de búsqueda automática, aún se encuentran muy lejos de alcanzar el conocimiento humano de un experto que sabe sobradamente que el diablo (o el oro) se encuentra en los detalles, a menudo, aparentemente insignificantes. Obviamente para colegas inexpertos, estos sistemas automáticos les pueden resultar de alguna utilidad, empero, no pueden reemplazar la complejidad de nuestras búsquedas basadas en una red neuronal llamada cerebro con billones o trillones de conexiones. Eso sí, cuando falla el procedimiento, como nos muestra la noticia de hoy comienzan a cuestionarse las bondades de estas tecnologías, apelando a argumentos muy semejantes a los que aquí he expuesto. No hace falta ser ningún sabio para haberlo pensado desde un primer momento.  

Buscar en Internet es un arte. Uno comienza lentamente con muchos problemas, pero a base de práctica va alcanzando una mayor destreza e intuición. Personalmente ahora realizo mucho mejores búsquedas que antaño . Y el punto de inflexión fue justamente la necesidad de encontrar información e imágenes que proporcionar a los lectores de este blog.  En materia de investigación suele dar igual perder unas horas más si el producto alcanzado resulta ser mucho mejor.  No se trata de criticar los conceptos de Big data, Data mining y Metaanálisis, intrínsecamente, sino de denunciar claro y alto que una cuestión son estos conceptos y otra bien distinta que con las herramientas actuales podamos reemplazar la mente y tesón del experto por unos ingenios aún muy rudimentarios. Sin embargo, lo peor es que hay mucho descerebrado que debe hacer uso de las redes neuronales y bla, bla, bla, con vistas a encubrir su ignorancia con un estúpido manto de tecnología que pretenden confundir con sabiduría. Quizás en un  futuro (…) tal vez actualmente para ciertos propósitos muy concretos (…) Sin embargo hoy por hoy la “smart scienceno es más que una moda, a la que estúpidamente se adhieren algunos colegas como adolescentes, ante la ropa o el telefonillo de moda. Y por desgracia, se publica más fácilmente un smart paper que un trabajo de revisión o inventario bien hecho.  Este es el cuento de caperucita roja. Os muestro primero las definiciones de tales conceptos de moda supersexy, para pasar seguidamente al debate que se ha suscitado tras un estrepitoso fracaso de Google que tan solo pone en evidencia las enormes flaquezas de estas smart tonterías, hoy por hoy. Mañana ya veremos (…)

Juan José Ibáñez

Definiciones de Wilikipedia

Big Data

Big data» es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. Los tamaños del «big data» se hallan constantemente en aumento. En 2012 se dimensionaba su tamaño en una docena de terabytes hasta varios petabytes de datos en un único data set. (…)

Data mining o Minería de datos

La minería de datos o exploración de datos (es la etapa de análisis de «Knowledge Discovery in Databases» o KDD) es un campo de las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza los métodos de la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de datos. El objetivo general del proceso de minería de datos consiste en extraer información de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Además de la etapa de análisis en bruto, que involucra aspectos de bases de datos y gestión de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, métricas de Intereses, consideraciones de la Teoría de la complejidad computacional, post-procesamiento de las estructuras descubiertas, la visualización y actualización en línea(…)

Metaanálisis

El metaanálisis es un conjunto de herramientas estadísticas, que son útiles para sintetizar los datos de una colección de estudios; dicho meta-análisis, inicia con una estimación de cierto efecto recopilatorio (como la diferencia media, la razón de riesgo, o la correlación) de cada estudio.[1] El metaanálisis permite ver estos efectos en contexto: si el tamaño del efecto es consistente, el efecto del tratamiento puede ser reportado como fuerte; y el tamaño del efecto puede estimarse más preciso que con un solo estudio. Si el tamaño del efecto varía, esa variación puede ser descrita y, potencialmente, explicada.

El gripazo de Google muestra las flaquezas del big data

El big data prometía soluciones, respuestas. La formidable capacidad de procesar ingentes cantidades de datos permite descubrir información desconocida, perspectivas sorprendentes, conclusiones sólidas.

FUENTE | Materia Publicaciones Científicas 8/03/2014

En 2009 se produjo un gran acontecimiento en este sentido: la revista Nature publicó un estudio que mostraba cómo las consultas en el motor de búsqueda de Google se habían traducido en una predicción casi exacta de la incidencia de la gripe en cada región de EE.UU.

El big data relucía en las portadas, una herramienta que ayudaría a conservar la salud de la gente mejor que los epidemiólogos. Sin embargo, sus últimas previsiones han duplicado el dato real ofrecido por las autoridades sanitarias. En un lustro, Google pasó de clavar el pronóstico a fallar como escopeta de feria.

¿Qué ha ocurrido en estos años que ha llevado al fracaso de Google Flu Trends (tendencias de la gripe)? Hay quien directamente lo atribuye a la arrogancia del big data y la ausencia de espíritu científico de Google, pero no conviene perder de vista todos los matices si queremos sacar conclusiones útiles. ¿Cuáles son las flaquezas del big data que muestra este caso y hasta qué punto son representativas de lo que ocurre con otros oráculos basados en grandes cantidades de información social, como ocurre con la capacidad predictiva de Twitter?

Los expertos señalan varios puntos clave, como la opacidad de las empresas que cuentan con mayores bases de datos, los cambios del algoritmo, cierta desconexión al confiar ciegamente en la cantidad de datos olvidando el método científico, las dificultades para predecir comportamientos sociales, la facilidad para manipular desde el exterior la cosecha de información y que hoy somos más exigentes con unos resultados que hace años parecían formidables.

Repasemos lo ocurrido con Flu Trends para visualizar su talón de Aquiles. La gigantesca multinacional que (casi) todo lo sabe, podía cabalgar sobre millones de búsquedas relacionadas con la gripe -‘síntomas gripe’, ‘virus gripe’, etcétera- para decirnos casi al instante si habría colas en las urgencias en determinado punto del país. Mientras, los sistemas predictivos de los Centros para el Control y la Prevención de Enfermedades de EE.UU. (CDC), necesitaban entre una o dos semanas para recoger la información necesaria.

El artículo en Nature que consagró a Flu Trends lo firmaron conjuntamente Google y los CDC (PDF). The New York Times hablaba de «un matrimonio fructífero» entre la medicina y el comportamiento de las masas. «Desde un punto de vista tecnológico, es solo el comienzo», dijo el presidente de Google, Eric Schmidt. Desde entonces, el sistema ha sobreestimado constantemente las visitas a centros médicos relacionadas con la gripe, siendo especialmente inexacto en los picos de la temporada de gripe, cuando más útiles son las previsiones. En la temporada 2012-2013, predijo el doble de visitas al médico que las registradas por los CDC y en la 2011-2012 se sobreestimó en más de un 50%: no atina desde agosto de 2011.

LA ARROGANCIA DEL ‘BIG DATA’

Las primeras veces que falló, Google lo quiso atribuir a una maniobra malintencionada: no es difícil alterar el resultado, tan solo hay que fingir que se busca información sobre esta enfermedad. Además, se decía desde la empresa, el interés que despertó Flu Trends en los medios provocó que la herramienta recibiera una importante atención por parte del público, lo que terminó por falsear el resultado.

Varios expertos en big data publicaron recientemente en Science un análisis de los fallos de Google Flu Trends, que consideraban una parábola de lo que está ocurriendo en su campo. «La arrogancia del big data», arrancan, «es la suposición implícita de que pueden sustituir, en lugar de complementar, a la recopilación de datos y el análisis tradicional». «La cantidad de datos no significa que uno puede ignorar los problemas fundamentales de la medición«, añaden estos autores, liderados por David Lazer, de la Universidad de Harvard (EE.UU.).

Google tiene más datos que nadie y, en muchas ocasiones, el debate sobre el valor del big data se centra únicamente en la cantidad. «Es verdad que se da un poco de arrogancia del tipo ‘mi base de datos es más grande que la tuya’. Muchas veces se queda en segundo plano la importancia del proceso de transformación del dato en valor», reconoce Esteban Moro, investigador de la Universidad Carlos III de Madrid.

TERABYTES DE DATOS

«Esto es algo que sabe cualquier persona que se dedique a aplicar el método científico, el dato en sí no tiene ningún valor«, insiste Moro. «Antes, los datos cabían en una hoja. Pero ahora, por tener terabytes de datos, no tienes mejor información». ¿Cuál ha sido el problema de Google con la transformación de los datos? Lazer apuesta en Science por los distintos (cientos, miles) de cambios que el propio Google introduce en el algoritmo de su buscador. «La forma en que se presentan los resultados también cambia la forma de buscarlos«, resume Moro, en referencia a novedades como el autocompletado del buscador, que dificulta conocer con exactitud lo que iba a buscar el usuario. Quizá el internauta iba a teclear «gripe en ancianos», preocupado por su abuelo, pero al terminar de escribir la primera palabra el buscador le sugirió otras opciones que alteraron su intención.

«Lo lógico es que lo hubieran refinado«, reflexiona Daniel Gayo, investigador de la Universidad de Oviedo. «En este campo, los cambios más triviales pueden afectar tremendamente: la forma de ordenar los resultados, la interfaz, el algoritmo… Es posible que no haya colaboración entre equipos, que dentro de la propia empresa no haya comunicación entre los departamentos responsables de los algoritmos del buscador y de la confección de Flu Trends«, sugiere Gayo.

EL SER HUMANO ES IMPREVISIBLE

Además, Gayo recuerda que «el big data es un subproducto, hay que vigilar cómo se origina», en alusión a esas búsquedas: los internautas no siempre se van a comportar como deberían, cumpliendo como simples sensores, «sino por antojos, modas y disfrutando de su albedrío». Moro coincide en que los comportamientos sociales son mucho más difíciles de calibrar: en su día a día, este investigador se sirve de los datos para la predicción del fraude o las bajas en los servicios telefónicos y «se trata de un comportamiento que cambia permanentemente, de un día para otro». Lo que servía en 2009 para vaticinar estornudos, en 2013 puede estar desfasadísimo.

Un gran obstáculo que identifica Moro es el de saltar de la correlación a la predicción: «Aunque encontremos correlaciones significativas, pueden no ser suficientemente buenas para aventurarse a realizar una predicción». Y en el momento en que las encontremos, apunta Gayo, los interesados harán lo posible para manipularlo: «Es lo que ocurre en política y las predicciones electorales en Twitter, todos van a querer cambiar el resultado a su favor». Otro de los problemas científicos que plantea la experiencia de Flu Trends es el de la replicabilidad de los resultados y la falta de transparencia. ¿Quién va a comprobar sus números y predicciones si ni siquiera sabemos cuáles son las búsquedas que se tienen en cuenta para hacerlas? Google es una empresa y sus datos atañen a la privacidad de millones de personas. En Science critican que los materiales que aportan desde Flu Trends no cumplen con los estándares científicos emergentes y que, no obstante, hay otros que sí se podrían liberar para ayudar a la ciencia.

FALTA DE TRANSPARENCIA

«Te tienes que creer que funciona, dar por buenos los datos que proporcionan las empresas. Sin una mínima transparencia, no se puede hacer ciencia a partir de su trabajo, que sería lo deseable», señala el investigador de la Universidad de Oviedo. Gayo considera que, en este caso, los autores de Science se han podido pasar de frenada elevando a categoría este fallo: más allá de EE.UU., Flu Trends sí funciona para numerosos países y los picos coinciden con la realidad, aunque no en tamaño. «Hace unos años sorprendió gratamente el descubrimiento, pero ahora somos más exigentes con los resultados», resume. Es decir, tampoco conviene ser reduccionistas y que la mala experiencia de Flu Trends nos lleve a decir que «el big data no merece la pena», como señala el experto Kaiser Fung en la revista Harvard Business Review. Lazer y los coautores de su texto creen que falta coordinación entre el big data y la confección de datos de toda la vida. Gayo opina que, tal y como se plantea en Science, el caso no es generalizable como un inconveniente común para la ciencia de los datos. Y Moro, que admite que «mucha gente se dejó llevar por el entusiasmo», sugiere que finalmente el factor humano es más determinante de lo que pensábamos: «Un electrón siempre va a tener la misma carga, pero las personas cambian».

Autor:   Javier Salas

Compartir:

Deja un comentario