EstadÃsticas de Tráfico de la Wikipedia
A través de la cuenta de Twitter de Gregory Piatetsky (KDnuggets, SIGKDD), nos enteramos de la liberación de un conjunto de datos que incluye 7 meses de estadÃsticas de tráfico horarias para más de 8 millones de artÃculos de la Wikipedia. Estas estadÃsticas pueden ser utilizadas para realizar MinerÃa de Datos y extraer conocimiento interesante acerca de los temas de interés, etc., de hecho hasta ahora han sido utilizadas para alimentar la web trendingtopics.org.
El conjunto de datos ha sido enviado por Peter N. Skomoroch, como un subconjunto de la información que está utilizando para alimentar a la web trendingtopics.org. Este conjunto de datos contiene 7 meses de estadÃsticas horarias para más de 8 millones de artÃculos en la Wikipedia (aproximadamente 2.5 millones de la Wikipedia en inglés), junto con el contenido asociado de la wikipedia, el grafo de enlaces y los metadatos. Todo el contenido textual, enlaces y estadÃsticas de este conjunto de datos se han liberado bajo licencia GFDL (GNU Free Document License).
Para todos aquellos interesados en la MinerÃa de Datos, el disponer de un conunto de datos como este es una gran oportunidad para hacer MinerÃa de Datos a gran escala. Dentro del dataset se encuentran tanto las estadÃsticas horarias, como los enlaces entre artÃculos de la Wikipedia y los propios contenidos de la misma Wikipedia, por lo que se pueden aprovechar para una gran variedad de tareas.
Entradas relacionadas
- 1st International Workshop on Mining Social Media
- Social Media and the Future of Search
- ¿Predicciones? para el 2009
- Reality Mining
- La disciplina del Aprendizaje Automático
Etiquetas:
Si te gustó esta entrada anÃmate a escribir un comentario o suscribirte al feed y obtener los artÃculos futuros en tu lector de feeds.

Estos tipos de estadisticas si que son interesantes y esta muy bien en saber de donde viene cada uno.
Saludos. Y BUEN POST AMIGO.