Analizando la actividad fallera con Buscafallas

buscafallas análisis actividad twitter zona influencia fallasLas redes sociales se están convirtiendo en una herramienta válida para medir el pulso de las ciudades. En este caso, para poner en práctica los resultados de nuestra investigación en el GTI-IA, hemos elaborado una herramienta que permite mostrar la actividad en la zona de influencia de cada una de las más de 300 fallas que se han plantado en Valencia en el 2015 desde buscafallas.com.

Los datos que usa son los tuits y las fotos geoetiquetadas que se publican en la ciudad. El problema es que apenas el 1% de los usuarios de las redes sociales activan esta característica, especialmente por cuestiones de privacidad (yo mismo no suelo tenerlo activo). El acceso a la información se realiza mediante el API público para los desarrolladores de Twitter y los desarrolladores de Instagram, junto con los datos públicos que el Ayuntamiento de Valencia proporciona a través de su iniciativa Valencia datos abiertos.

Una vez que conocemos las coordenadas de cada falla, podemos calcular su área de influencia. De mbuscafallas_etiquetasomento, no estamos teniendo en cuenta la sección a la que pertenece la falla y las consideramos iguales a la hora de calcular este área. Una vez calculada, podemos determinar cuántos  usuarios activos hay en la zona de influencia de la falla. El mapa se colorea atendiendo a la densidad y marca la cantidad de mensajes de cada zona. Se permiten dos formas de interpretar los datos: por número de usuarios o por actividad total. Si usamos los autores únicos, es decir, considerando solo un tuit/foto por usuario, puede estimarse cuánta gente hay cerca de la falla. Si tenemos en cuenta la actividad general, se puede determinar en qué parte de la ciudad está ocurriendo una actividad relevante (por ejemplo, la mascletà en la Plaza del Ayuntamiento). El usuario puede elegir qué información ver con los botones de la parte superior, a la izquierda. Además, pinchando sobre la falla, pueden verse las etiquetas que la gente está usando en la zona de influencia de la falla, para que sepas de qué se está hablando alrededor de cada una de ellas. Los botones de la parte inferior muestran un ranking de las fallas que están teniendo en este momento más actividad (las últimas 2 horas) y las etiquetas más utilizadas en general en toda la ciudad.

buscafallas_pasacallesLa web tiene una segunda utilidad: los pasacalles falleros. Hemos creado una aplicación (gratuita, buscafallas está disponible en Google Play) con el que las fallas pueden dar a conocer su posición en tiempo real. Esta información se envía a Buscafallas y desde la web de buscafallas cualquier persona puede ver el recorrido que están haciendo. Puedes usarla para pasacalles, la Ofrenda, la despertà, cabalgatas… Para activarla, necesitas el nombre de usuario y la contraseña de tu falla. Si no la tienes, puedes contactar con nosotros enviando un correo electrónico a gtiia@dsic.upv.es  Ten en cuenta que la precisión del GPS puede no ser buena en calles estrechas y no funciona en el interior de los edificios.

Cuando acaben las Fallas, completaremos la información cuando estudiemos los datos con técnicas de análisis de redes sociales. Quien sabe, a lo mejor somos capaces de predecir qué falla va a ganar el primer premio, como ocurrió con la predicción de Ben Zauzmer sobre los Óscar 2015 ;-)

Algunos detalles técnicos: toda la información que recopilamos, está almacenada en una base de datos creada con MongoDB y para la visualización de los mapas estamos usando Leaflet. La primera opción fue intentarlo con CartoDB, pero tuvimos muchos problemas para configurarlo en nuestro propio servidor, así que al final lo descartamos.

El mérito de todo esto es de Javier Palanca y Elena del Val, que han sido los que han hecho que este proyecto pase del papel a una aplicación real.

Mi experiencia en el curso de investigación científica 2.0.1

Cuando me matriculé en el curso Investigación científica 2.0.1: procesos clave en una sociedad digital ya tenía algo de interés en como divulgar ciencia. Sigo a algunos investigadores que se han involucrado de forma activa en la divulgación y creo que es una parte importante del trabajo científico. En la situación actual de crisis, donde los recortes en ciencia son cada vez mayores, es necesario buscar otras fuentes de financiación y eso no se consigue si la sociedad no percibe una utilidad real de la ciencia. Y para lograrlo, además de la transferencia, la divulgación tiene un papel fundamental.

El problema principal de la divulgación es que se trata de una actividad que no se tiene en cuenta de manera formalmente en procesos de evaluación curricular. Pero aunque no tenga un impacto directo, creo que a lo que contribuye es a la construcción de tu propia identidad 2.0 como investigador. Y si mejora la visibilidad de alguna forma se consigue que los trabajos científicos (artículos principalmente) aparezcan mejor indexados. Y esto, combinado con la posibilidad de publicación en abierto, contribuye a aumentar el número de citas, que sí que tiene un impacto directo en el currículum.

En mi caso, la parte técnica la tenía asumida. Tanto por mi formación como por mis intereses: soy un usuario activo de los medios sociales e incluso he impartido alguna asignatura relacionada con ellos, así que en ese aspecto partía con ventaja. Aún así, he descubierto sitios y herramientas interesantes que estoy empezando a incorporar a mis recursos.

El curso me ha servido para concienciarme de la importancia de la divulgación. Creo que es importante introducirla como una tarea más en los proyectos. Normalmente se añaden tareas de transferencia, pero no hay actividades de divulgación claras, con indicadores bien planteados.

Si tuviera que resumir los puntos principales del curso me quedaría con

  1. Hoy en día todos tenemos una identidad digital que nos complementa y que es necesario cuidar. Como investigadores, podemos beneficiarnos de estas circunstancias.
  2. Los medios sociales son una herramienta fundamental para la divulgación de nuestro trabajo como investigadores.
  3. La opción de publicación en abierto es fundamental para que otros puedan utilizar nuestros resultados, especialmente cuando el trabajo se ha realizado con fondos públicos.
  4. Si bien no hay que obsesionarse con los distintos índices de impacto y rankings, son una medida para poder comprobar nuestra evaluación y la de nuestra institución para determinar si se están realizando los esfuerzos en la dirección adecuada.
  5. Como investigadores tenemos una responsabilidad con la sociedad a la que tenemos que hacer llegar nuestros resultados de forma veraz y adecuada al nivel de los distintos actores que la forman.

Mi compromiso a partir de ahora es esforzarme por incorporar la divulgación como una tarea más. De momento, he creado un blog para un pequeño proyecto en el que soy investigador principal sobre los procesos de consenso en redes Consensus in networks donde daré a conocer los resultados que vayamos obteniendo este último año. Además, incorporaré un apartado en mi blog Cuadernos de investigación donde al menos una vez al mes añadiré una anotación con un enfoque divulgativo.

También creo que es importante seguir formándome en este aspecto, así que en cuanto termine el curso me gustaría realizar algún curso sobre periodismo científico. Buscando he visto un par de master interesantes: Periodismo científico y comunicación científica en la Univ. Carlos IIIy el Máster en Periodismo y Comunicación en la UNED. No voy a meterme a tanto, solo quiero aprender a escribir un poco mejor. Pero os lo dejo por si a alguien le interesa.

El curso en sí me ha parecido muy interesante. Ha cumplido con mis expectativas en cuanto a los contenidos. Lo recomiendo a investigadores, también en formación, que les interese el tema. He podido seguirlo dedicándole unas 2 horas a la semana. Si no tienes experiencia con las redes sociales, blogs y demás herramientas, seguramente se acercará más a las 4 horas estimadas.

No es el primer MOOC en el que participo. Todavía no estoy completamente convencido de las bondades de este formato. Los materiales en vídeo por sistema pueden ser más lentos que el material escrito en algunos casos. No me gusta la exigencia de tiempo para completar el curso, pero entiendo que es necesario si hay que compaginar la actividad con la de un grupo o si hay detrás un equipo responsable de validar la progresión de los alumnos. De todas maneras, la tecnología actual podría acomodar el ritmo de curso de forma completamente personalizada, sin necesidad de completar el curso en el mismo tiempo ni con una duración concreta. En mi caso, ha habido semanas con picos extra de trabajo que me han impedido seguir el curso. Afortunadamente daba tiempo de sobra a realizar las actividades, pero si la planificación hubiese sido más ajustada posiblemente habría abandonado el curso por quedarme descolgado.

En cuanto a la plataforma de Miriadax, el principal inconveniente es que el enfoque sigue siendo centrado en el profesor. El equipo docente sigue teniendo toda la carga en la generación y propuesta de materiales y queda poco margen a la contribución de los alumnos. La participación en grupos masivos se diluye por la dificultad de seguir las aportaciones de los usuarios. Los foros no son útiles y normalmente se organizan grupos fuera de la plataforma (son frecuentes los grupos en facebook). Algo que no entiendo es que el apartado de blogs no tenga un RSS para suscribirse.

Y sobre el propio curso, hay algunas cosas que se podrían mejorar. La más importante hace referencia a los procesos de evaluación por pares: creo que sería conveniente tener algún criterio para orientar en la corrección, como rúbricas o algún mecanismo similar. Por otro lado, se han aprovechado poco los sitios personales de los participantes (blogs, twitter…) De hecho, solo conozco los que he evaluado. Creo que has falta más tiempo para poder madurar las herramientas antes de usarlas para divulgación. Se notaba mucha diferencia entre los alumnos que ya teníamos un blog y cuentas en las distintas redes con respecto a los que las crearon para el curso. Finalmente, a veces las actividades no tenían que ver con el tema del módulo. Por ejemplo en el módulo 4 sobre el impacto de las publicaciones científicas la actividad consistía en la creación de un blog.

Como conclusión, teniendo en cuenta las limitaciones, me ha gustado la experiencia. Creo que es un curso útil, bien planteado, con unos contenidos amenos y pertinentes que en mi caso, me han motivado para dedicar más esfuerzo a la divulgación científica.


	

Semantic Service Management for Service-Oriented MAS

por Elena Del Val

El trabajo de tesis trata sobre cómo construir sistemas de agentes que se relacionan en redes complejas. Los resultados muestran que se pueden construir sistemas descentralizados, sin ningún tipo de control, donde los agentes son capaces de localizar los que necesitan realizando búsquedas activas. Los agentes se agrupan por similaridad (homofilia) y son capaces de adaptarse a cambios en el entorno (cambios en la demanda de los recursos) y también de superar situaciones en las que existan agentes que no colaboren en la tarea de búsqueda de información.

La revisión del estado del arte es complicada porque hay muchas áreas involucradas. Se organiza en torno a 3 preguntas clave:

  1. cómo se estructura la red -> sistemas centralizados, distribuidos y descentralizados
  2. comportamiento ante cambios en el entorno -> sistemas auto-organizados, emergencia
  3. comportamiento ante entidades que no cooperan -> aislamiento e incentivos Los resultados más usados en este campo son los que vienen de la teoría de juegos

El modelo formal del sistema es una red, donde los nodos son agentes u organizaciones complejas (que se ven como una única entidad) y las relaciones existentes entre ellas. Las entidades están definidas a través del conjunto de roles que desempeñan, cada uno de los cuales tiene asociado un conjunto de servicios que modelan qué es lo que el agente sabe hacer.

El caso más simple se produce cuando tenemos un sistema centralizado. Fue el principio de la tesis y en él simplemente se establece un sistema mediado por un Service Facilitator (SF). Se encarga de registrar los servicios de todos los agentes que forman el sistema y de resolver las consultas que se produzcan en el sistema, de forma semejante al rol del UDDI dentro de las plataformas orientadas a servicios. Si no se encuentran servicio adecuado, se trata de descubrir una composición de servicios que se ajuste a las necesidades. Pero esta no es una solución útil para sistemas dinámicos y abiertos, así que se ha optado por una

El primer problema es cómo crear las redes para que se puedan localizar los servicios sin tener un registro central que se encargue de organizar los servicios. Para eso se emplean redes basadas en un concepto llamado homofilia. Básicamente, resume la tendencia de las personas a interactuar con otros que son semejantes a ellos. Empleando esta idea, se crean redes en los que los nodos tienen tendencia a conectarse con otros agentes semejantes a sí mismos. De esta manera se obtiene una red con una estructura de growing network (los agentes se añaden a la red a medida que van llegando), con una distribución exponencial de grado. Una característica interesante es que de esta forma se consiguen redes navegables: es posible localizar un servicio teniendo en cuenta la información de los vecinos exclusivamente (racionalidad acotada). La estructura tienen ciertas características de small-world (caminos cortos e índice de clustering significativo).

Con esta formación, cuando se desea localizar un servicio, si nadie de nuestros contextos lo puede realizar le preguntaremos al vecino más prometedor que trate de localizar a un agente que sí lo proporcione. Para ello simplemente tenemos que localizar cuál de nuestros vecinos se parece lo suficiente al servicio que necesitamos y además se tiene en cuenta su grado (cuanto más conectado esté más probabilidades tendrá de encontrar el servicio que necesitamos). Este proceso se repite hasta que se localiza el servicio deseado. Aunque a priori puede parecer ineficiente tener que hacer un búsqueda cada vez que se necesita algo, en el caso de sistemas dinámicos, la sobrecarga de mantener actualizada la lista de servicios es mucho mayor. Y el problema se agrava si hablamos de sistemas distribuidos en los que los repositorios de servicios están replicados en la red.

Para evaluar el rendimiento, se ha comparado con distintas topología de red (random, scale-free, preferential attachment) y diferentes estrategias de búsqueda (random walk, degree, similaridad y homofilia). Se observa que la navegación por grado en redes de tipo scale-free y la basada en homofilia obtiene resultados simulares (en cuanto a las longitudes de los caminos que necesita en las búsquedas y la tasa de aciertos). Sin embargo, las redes scale-free son mucho más sensibles a sabotajes (provocar el fallo de un nodo muy conectado) y en el caso de las redes con homofilia se consigue una degradación mucho más lenta.

Esta alternativa funciona bien si se conoce la carga del sistema, es decir, si el número y el tipo de servicios que se piden en el sistema no cambia. Pero en el caso de sistemas dinámicos, en los que esta carga del sistema cambia, puede optimizarse el rendimiento del sistema adaptando la estructura de la red. Vamos a tratar de hacerlo también de forma descentralizada: cada agente toda la decisión de forma aislada sin conocer ni consultar el resto de lares, teniendo en cuenta únicamente el tráfico que pasa por él. Se plantean dos estrategias: modificar los enlaces o modificar los propios agentes. Para modificar los enlaces, se considera que éstos tienen una utilidad de decae con el tiempo, de manera que si un enlace no se ha usado durante mucho tiempo (y no es vital para el agente, éste puede decidir eliminarlo y tratar de conectarse con otro nodo. Para eso, mantiene una lista de candidatos a partir de los agentes que ha ido encontrando en la red que utiliza como posibles vecinos alternativos cuando cambia la situación. La segunda posibilidad es que si un nodo detecta que ya no es útil puede

Por último, podemos relajar la asunción de que todos los agentes quieran cooperar. En ese caso, podemos encontrarnos con el caso (muy real) de que agentes decidan no colaborar en la transmisión de las búsquedas. Esto puede afectar gravemente al rendimiento global del sistema, por lo que se trata de buscar una solución a este problema. De nuevo se plantean 2 posibilidades: aislar a los vecinos que no cooperan (ostracismo) o tratar de convencerlos de que cambien de comportamiento. En el primer caso se emplea un mecanismo semejante a la redirección de enlaces.. Se les asocia una utilidad que decae con el tiempo de forma si un agente no colabora de forma reiterada, en helase perderá importancia y finalmente se reemplazará. A la hora de redirigir en enlace, se ha comprobado que proporciona mejores resultados en enlazarse con un nodo semejante al nodo que se ha desconectado (usando el criterio de homofilia). SIn embargo, este mecanismo no funciona bien si el número de agentes que no colaboran es alto o éstos tienen un grado elevado. Por eso se trata de usar mecanismos basados en incentivos para tratar de que los agentes que no colaboran cambien de comportamiento. Los incentivos tratan de premiar el comportamiento de los agentes que colaboran de manera que el resto de agentes funcionen por imitación y adapten su comportamiento a de aquellos vecinos que obtienen mejores beneficios. Esto no garantiza la colaboración y de hecho los resultados son semejantes cuando no hay una masa crítica de agentes que comienzan colaborando. Sin embargo, la combinación de los dos métodos: incentivos para tratar de caminar el comportamiento de agentes y aislamiento cuando no se produce este cambio, permite que emerja un comportamiento general de colaboración incluso cuando el número inicial de agentes que colaboran está muy por debajo de los egoístas (inciso en una proporción de 30-70).

Y con esto acaba la presentación de la tesis. Os dejaré más información sobre los artículos que hemos publicado sobre estos temas

Actualización 8-mar-2013: Ya se puede descargar la tesis desde  http://hdl.handle.net/10251/27556