La Irracional Efectividad de los Datos
El artículo de Eugene Wigner, “The Unreasonable Effectiveness of Mathematics in the Natural Sciences” examina el por qué gran parte de la Física puede ser explicada con fórmulas matemáticas simples como f = ma o e = mc2. Mientras, las ciencias que tienen que ver con los seres humanos, en lugar de partículas elementales, son más resistentes al uso de matemáticas elegantes. Los economistas envidian a los físicos por su incapacidad de modelar el comportamiento humano. Una gramática informal e incompleta del Inglés contiene sobre 1.700 páginas. Quizás, cuando tratamos con el procesamiento del lenguaje natural y campos relacionados, nos encontramos desbordados con complejas teorías que nunca tendrán la elegancia de las ecuaciones físicas. Pero si es así, debemos parar de actuar como si nuestro objetivo fuera crear teorías extremadamente elegantes, y en lugar de ello, ir de la mano de la complejidad, y hacer uso del mejor aliado que tenemos: la irracional efectividad de los datos.
Uno de nosotros, como licenciacio en la Universidad de Brown, recuerda la excitación de tener acceso al Brown Corpus, coteniendo un millón de palabras en Inglés. desde entonces, nuestro campo ha visto corporas notables, unas 100 veces más grandes, y en 2006 Google lanzó un corpus conteniendo un trillón de palabras con su frecuencias de aparición, y conteniendo todas las secuencias de palabras de hasta 5 palabras de longitud. En ciertos aspectos, este corpus es un paso atrás con respecto al Brown Corpus: ha sido extraído a partir de páginas web sin filtrar, y por ello contiene sentencias incompletas, errores de escritura, errores gramaticales, y todo tipo de errores posibles. No está anotado de forma manual con etiquetas ‘part-of-speech’ (que determinan si una palabra es un sustantivo, verbo, etc.). Pero el hecho de que sea un millón de veces más grande que el Brown Corpus supera con creces cualquier otro inconveniente.
Un corpus de un trillón de palabras, junto con otros corpus extraídos de la Web, con millones, miles de millones, o trillones de enlaces, videos, imágenes, tablas, o incluso interacciones entre humanos, captura cualquier posible aspecto del comportamiento humano. Así pues, este corpus serviría como la base de un modelo completo para determinadas tareas, si supiéramos como extraer el modelo de los datos.
Entradas relacionadas
- Charlas OnLine sobre Sistemas Inteligentes
- El futuro de las redes sociales
- La Búsqueda Semántica
- Búsqueda y Social Media
- Redes Sociales y Sistemas Inteligentes
Si te gustó esta entrada anímate a escribir un comentario o suscribirte al feed y obtener los artículos futuros en tu lector de feeds.







Comentarios
Aún no hay comentarios.
Escribe un comentario