Análisis de las conversaciones en IMAT 2017

La semana pasada asistí al Simposio IMAT 2017 sobre innovación aplicada. Como ya es habitual en muchos congresos, la actividad propia del congreso se extendió a las redes sociales, especialmente a Twitter. Era la primera vez que asistía (van ya por la tercera edición) y no tenía ninguna referencia sobre cómo usaban la redes. Yo he hecho que suelo hacer en los congresos: resolver dudas con la organización, comentar las ponencias, complementar las charlas con enlaces y recursos que se mencionan u otros que me vienen a la cabeza a partir de lo que cuentan y que pienso que puede ser de utilidad a alguien.

El análisis que os muestro a continuación es el que suelo hacer y va un poco más allá de los datos acumulativos que suelen proporcionar las herramientas habituales de análisis. Para mi, el número de retweets o el número de impresiones no es un dato especialmente relevante. Lo mismo que ser trending topic, algo que es extremadamente sencillo si conoces un poco cómo funciona el mecanismo. O tener más o menos seguidores. Mucha gente sigue teniendo la visión de las redes como un altavoz, haciendo propio el dicho de “ande o no ande, caballo grande”. Demuestran que no han entendido nada.

Las técnicas de análisis de redes sociales (ARS o SNA -social network analysis- en el inglés original) son muy útiles si quieres conocer cómo se comporta tu comunidad. Y allá vamos. Lo primero, os explico cómo construimos la red.

La red muestra las conversaciones que se produjeron durante los tres días que duró el simposio. En primer lugar, hemos obtenido todos los tuits que incluían la etiqueta oficial #ESICimat y de ellos nos quedamos con los mensajes que incluyen una referencia explícita a otro usuario: retweets, respuestas y menciones. La visibilidad de estos tuits es mucho más alta, pues los usuarios reciben notificaciones cuando son mencionados y se muestran en una sección especial, por lo que siempre están accesibles. Los nodos de la red representan a los usuarios que mencionan a otros o han sido mencionados, usando la etiqueta #ESICimat. Creamos un enlace desde la persona que creó el tuit a la que ha sido mencionada en el contenido del tuit. El resultado es una red como esta.thumbnail of esicimat17La red está formada por 391 usuarios (los que han tenido alguna actividad en Twitter) y se han recuperado 1789 tuits que usaban la etiqueta, de los cuales 1498 incluían alguna mención. Esto nos llevaría a pensar que, de media, cada usuario ha publicado 3,8 tuits. Pero como se puede ver en el gráfico Degree Distribution, esta medida no es representativa, pues tenemos usuarios con más de 200 menciones. El tamaño de los nodos depende de su grado, que indica cuántos enlaces tiene un nodo. Cuanto mayor grado tiene un nodo, más ha participado en las conversaciones. Si los tuits se distribuyeran de forma normal (como una campana de Gauss) la probabilidad de que un asistente publicara 200 tuits sería prácticamente nula. El grado de los nodos se distribuyen siguiendo una ley de potencias, como se puede observar al mostrar los datos en un gráfico doble logarítmico (se aproximan por una línea recta).

Además del grado, hay otras medidas relevantes. En nuestro caso, en lugar de proporcionar la medida final una vez construida toda la red al finalizar el evento, somos capaces de ir calculando las distintas medidas de forma incremental, a medida que evoluciona el evento. En las siguientes gráficas se ve claramente como la red se va creando durante el primer día y hay un cambio de tendencia el segundo. Básicamente, se debe a que el primer día están incorporándose nuevos participantes, mientras que a partir del segundo día, lo que ocurre es que aumentan las interacciones entre los asistentes. Entre el segundo y el tercer día no hay cambios significativos en las tendencias.

Assortatitity & degree

Average Path length & symmetryDiameter & clustering
La asortatividad (en la parte superior) es una medida que indica si los nodos que se conectan entre sí son semejantes. En este caso, los valores son negativos, indicando que la mayoría de las conversaciones se produce entre gente de grado alto con los de grado bajo. Es un fenómeno habitual: los usuarios poco influyentes suelen mencionar a los usuarios muy influyentes (como en el fenómeno fan). Esta medida nos está indicando que los usuarios relevantes del simposium apenas han interactuado entre ellos, si bien esa tendencia fue disminuyendo a medida que progresó el IMAT. Otra medida típica es el diámetro de la red y la longitud de los caminos medios (a la izquierda). El diámetro indica la distancia más lejana entre dos usuarios. La red tenía un diámetro de 8, lo que indica que si queremos hacer llegar un mensaje entre los dos usuarios más alejados, necesitaríamos 8 pasos. Sin embargo, el la longitud del camino medio es corta, algo superior a 3 pasos Este número es el equivalente a los famosos 6 grados de separación: de media, había una distancia de 3 personas entre cualquier par de asistentes. Por último, el clustering indica cuántos "triángulos" existen en las conversaciones de todos los posibles. Es un valor significativo, lo que junto con un camino medio bajo y una distribución de grado como una ley de potencias nos está indicando que durante el IMAT se dio el fenómeno conocido como "mundo pequeño" (small world). 
Para acabar, una medida interesante es tratar de detectar a los usuarios que tienen un papel relevante en la red (que algunos identifican erróneamente como nodos influyentes: hay que matizarlo bien). En general se conocen como medidas de centralidad.  Por ejemplo, una de las medidas habituales (y la empleada en el grafo) es el grado: el nodo más relevante es el que tiene el grado más alto, es decir, el que más actividad tiene en el evento. Otra medida relevante es la llamada closeness, que establece la relevancia de un nodo en función de su distancia al resto. El nodo con mayor closeness es el nodo más central. Sería el nodo que haría llegar antes un dato al resto de la red. Otra medida importante es el betweenness. Nos indica cuántos caminos pasan por un nodo. La importancia de esta medida estriba en que si eliminamos estos nodos es probable que la red se desconecte y deje de ser útil para transmitir información. Por último, la centralidad de valor propio (eigenvalue) es una media de la relevancia de un nodo a partir de la relevancia de los vecinos. Es decir, un nodo es importante si está unido a nodos importantes. El Pagerank que emplea Google para clasificar las páginas web es una medida de este tipo.
in and out degree betweenness and closeness

Hemos repetido estas medidas sin tener en cuenta las cuentas oficiales institucionales (@ESICimat @ESICValencia y @ESICeducation) para comprobar su efecto en la conversación. El impacto que tiene el borrado no es demasiado alto en general: los usuarios se alejan algo entre si, aumentando las distancias, pero no es un efecto grande. Sin embargo, sí que hay un factor en el que las cuentas institucionales son clave: la formación de comunidades. En la red completa, existen 7 comunidades (7  grupos de usuarios sin conexión entre ellos). Sin embargo, al eliminar las cuentas oficiales, ese número pasa a 49. Esto quiere decir que el papel fundamental de dichas cuentas es el de ayudar a conectar a los asistentes. Sin ellos, no se habría formado la red y la información no hubiera fluido durante el simposio.