Archivo de enero 20th, 2020

Análisis de tendencias en las redes sociales sobre envejecimiento (Parte1)

La popularización de las redes sociales ha cambiado la forma de comunicarse entre la sociedad actual y la influencia que tienen sobre la forma en la que los individuos se informan de las tendencias en diferentes áreas de interés. Muchas de estas redes sociales contienen una enorme cantidad de datos y vinculación que se pueden aprovechar para analizar que ámbitos temáticos tienen mayor interés y quienes son los referentes que promueven esa información.

Con esta idea, un estudio que hemos desarrollado es el análisis de la red social de Twitter para tratar de tener una fotografía de cómo se trata el ámbito del envejecimiento entre los usuarios interesados en estos aspectos. Las redes sociales se pueden considerar estructuras formadas por nodos que representan a individuos u organizaciones y enlaces de relación, por lo que el análisis pretende detectar las tendencias o temas más populares que centran el interés de los usuarios en el ámbito del envejecimiento y además en una segunda parte analizamos la polarización del sentimiento que se percibe por parte de los usuarios al tratar estas temáticas. Otro de los aspectos que se han tratado de analizar es la detección de usuarios o redes de usuarios influyentes dentro de la red social que centran el flujo de información.

Para llevar a cabo este análisis, como se mencionaba, se ha elegido Twitter como la fuente de recursos de datos debido a que es ampliamente utilizado y simple en su mecánica de difusión de tal manera que su exploración es accesible y suficientemente amplia para tener una relevancia estadística.  El análisis se ha focalizado sobre el contenido en español de la red social y sobre los usuarios que tuvieran interés en los ámbitos del “envejecimiento, longevidad y personas mayores”.

A través de la conexión con la API de Twitter y mediante la librería advertools y el uso del lenguaje de programación de Python, se descargaron unos 10.000 tweets fechados en diciembre de 2019.

Comentar que la propia API de Twitter limita la descarga de tweets a los últimos 7 días anteriores a la consulta, por lo que el análisis lo realizamos centrados en la segunda semana de diciembre de 2019 cuando se realiza la descarga masiva.

A partir de este dataset en bruto, realizamos una limpieza quedándonos con los campos más interesantes con los que desarrollar el análisis de grafos de la red. Para obtener más detalles de todo el proceso de minería de datos puede acceder a la página del proyecto en Github.

Una vez limpiado los datos, se configura el grafo para su posterior análisis. Comentar que el análisis del grafo pretende identificar comunidades principales o emergentes en los que se produce una relación más fuerte de seguimiento entre los usuarios, y que nos puede determinar la interacción de las distintas comunidades y determinar similitudes y diferencias entre ellas y determinar cuáles son las más influyentes y en qué ámbitos potencialmente tienen mayor interés. Nuestro análisis se centra en identificar a los influencers clave dentro de las distintas comunidades detectadas.

Gephi

Con el grafo configurado, lo analizamos en Gelphi bajo algunos parámetros e indicadores.

Tratamos de identificar quienes son estos usuarios más influyentes en las redes en la temática de envejecimiento. Podemos observar el top 5 de los usuarios que más menciones reciben de otros usuarios dentro de los tweets, por lo que podríamos mencionar que tienen credibilidad entre la comunidad de usuarios interesados en estas temáticas.

También podríamos destacar el top 5 de los más relevantes en la red, es decir la capacidad de influir un nodo en la red.

Si realizamos un filtrado por la modularidad[1] de los nodos obtenemos 5 principales comunidades de usuarios o subredes que presentan mayor interacción entre ellas. Sí etiquetamos esas redes para identificarlas y las filtramos por su influencia en la red obtenemos el siguiente grafo:

Vamos a focalizar sobre las comunidades más relevantes dentro de la red y detectar qué usuarios son los influyentes dentro del ámbito temático analizado.

Sin duda el que forma una comunidad más definida con un mayor número de seguidores es la de color rojo, cuyo centro neurálgico de la actividad se centra en el usuario @sninobecerra que corresponde al perfil de twitter del economista Santiago Niño Becerra, catedrático de ‘Estructura Económica’ en IQS de la Universidad Ramon Llull de Barcelona y que dispone de 184.000 seguidores. Sí realizamos un procesamiento del texto para eliminar las palabras vacías de información mediante el corpus de “stopwords” disponible en la librería nltk de Python y lo añadimos a una nube de palabras para mejorar la visulización obtenemos, que la temática que más preocupa en esta red de alta influencia trata sobre los ámbitos económicos que influyen en el envejecimiento poblacional concretamente aspectos relacionados con la baja natalidad, la productividad laboral y la influencia sobre el PIB nacional.

Si nos centramos en la Comunidad verde, que podríamos considerar cómo el segundo centro de actividad más relevante, se observa que este flujo de información está liderado también por un nodo o usuario denominado @elbotiquinmx con 36.000 seguidores y que corresponde con una publicación mejicana dedicada a difundir temas de prevención de la salud y bienestar. Si volvemos a fijarnos en las palabras más repetidas en todos los tweets de la comunidad verde, las temáticas en las que se centran es en el debate sobre qué momento se inicia el envejecimiento o hábitos saludables para ralentizarlo.

La comunidad morada aparece muy aislada en las aristas o vínculos que se unen con el resto de la red, lo que hace sospechar que puede tratarse de una temática no directamente relacionada con el ámbito que nos ocupa. Al analizar su nodo más influyente, comprobamos que la temática que se trata corresponde con las recientes protestas hacia Evo Morales y su aspecto envejecido, lo que hace que descartemos esa comunidad para el interés de este análisis.

Por último, revisamos la comunidad naranja y azul, que, siendo menos influyentes en la red completa, pero destacan dentro del resto de subredes. En el caso de la comunidad naranja, se destacan dos nodos más influyentes por un lado comentando aspectos relacionados con el ejercicio y a través de nodos puente conectados con otro de los nodos influyentes que se centra en temas de nutrición y cómo influye esto en el envejecimiento.

 

 

 

En el caso de la Comunidad azul, se encuentra más desperdigada, pero con más enlaces con el resto de nodos por lo que seguramente las temáticas tratadas sean más amplia y no centradas en un solo tema. En este caso se aprecian varios nodos influyentes, entre los que destacan @GrandesAmigos_ que es un ONG dedicada a prevenir la soledad en las personas mayores, @FPilares que es una Fundación para apoyar la dignidad a lo largo de la vida, entre otros.

 

 

—————-

 [1] La modularidad es una medida de la estructura de las redes o grafos. Fue diseñado para medir la fuerza de la división de una red en módulos (o comunidades). Las redes con alta modularidad tienen conexiones sólidas entre los nodos dentro de los módulos, pero escasas conexiones entre nodos en diferentes módulos.
Etiquetas: