El big data tiene el potencial de poder medir la sociedad de los países desarrollados en tiempo real a partir de las redes sociales. Así lo explica Esteban Moro, profesor titular de la Universidad Carlos III y miembro del Instituto de Ciencias Matemáticas del CSIC, en la Conferencia #itdUPM2015 del pasado mes de junio.
Vivimos en una sociedad en la que cada uno de nosotros producimos diariamente miles de datos. Un ejemplo: compartimos constantemente nuestra localización con Google, que a su vez emplea esos datos para, entre otras cosas, estimar el tráfico en sus mapas.
Utilizando el Big Data -esas grandes cantidades de información de diversos tipos de fuente, como pueden ser las redes sociales, compras con tarjeta de crédito o sensores- ya se puede monitorizar cuestiones como el paro, el transporte, la confianza de los consumidores, etc.
Esteban Moro muestra en estos dos modelos desarrollados por su equipo las posibilidades que tiene el Big Data para medir a nuestra sociedad.Big Data para obtener mejores respuestas
El primer modelo que mostró fue sobre movimientos de personas basado en geolocalización de Twitter, donde se observa que la actividad económica real no responde a la división territorial española.
El siguiente modelo, también basado en Twitter, ayuda a estimar el paro en tiempo real a través de variables como las franjas horarias en las que más actividad hay, el número de usuarios de Twitter e, incluso, el número de faltas de ortografía que se cometen por región (variable que se demostró que estaba muy correlacionada con los datos de paro).
Esto no sirve para sustituir a encuestas oficiales como la Encuesta de Población Activa, pero puede complementarla y ayudar, por ejemplo, a monitorizar los efectos de políticas públicas.
Tomando el modelo de estimación de paro, el equipo se dio cuenta de que este modelo fallaba. Pero descubrieron que lo que tenían era un modelo excelente para estimar la economía sumergida. Algo parecido ocurre en Argentina, donde el Banco Mundial tiene en cuenta este tipo de modelos y estimaciones antes que los datos oficiales sobre economía.
El análisis de los datos de Twitter también ofrece posibilidades muy interesantes para la sanidad, sobre todo para monitorizar epidemias como la gripe, o incluso para tener una respuesta estimada a preguntas que antes no se habían formulado (¿a cuánta gente le duele la cabeza?).
Los datos de las redes sociales pueden tener otros usos, como ayuda y recogida de información en desastres naturales. Así, Moro presentó un estudio que demostraba que con los datos de las redes sociales de las ocho horas siguientes al huracán Sandy se podía estimar en un 40% el impacto económico para las aseguradoras.JTNDaWZyYW1lJTIwc3JjJTNEJTIyJTJGJTJGd3d3LnNsaWRlc2hhcmUubmV0JTJGc2xpZGVzaG93JTJGZW1iZWRfY29kZSUyRmtleSUyRjM4SVY1Q3B4dW1LemwxJTIyJTIwd2lkdGglM0QlMjI1OTUlMjIlMjBoZWlnaHQlM0QlMjI0ODUlMjIlMjBmcmFtZWJvcmRlciUzRCUyMjAlMjIlMjBtYXJnaW53aWR0aCUzRCUyMjAlMjIlMjBtYXJnaW5oZWlnaHQlM0QlMjIwJTIyJTIwc2Nyb2xsaW5nJTNEJTIybm8lMjIlMjBzdHlsZSUzRCUyMmJvcmRlciUzQTFweCUyMHNvbGlkJTIwJTIzQ0NDJTNCJTIwYm9yZGVyLXdpZHRoJTNBMXB4JTNCJTIwbWFyZ2luLWJvdHRvbSUzQTVweCUzQiUyMG1heC13aWR0aCUzQSUyMDEwMCUyNSUzQiUyMiUyMGFsbG93ZnVsbHNjcmVlbiUzRSUyMCUzQyUyRmlmcmFtZSUzRSUyMCUzQ2RpdiUyMHN0eWxlJTNEJTIybWFyZ2luLWJvdHRvbSUzQTVweCUyMiUzRSUyMCUzQ3N0cm9uZyUzRSUyMCUzQ2ElMjBocmVmJTNEJTIyJTJGJTJGd3d3LnNsaWRlc2hhcmUubmV0JTJGaXRkVVBNJTJGbm93Y2FzdGluZy1zb2NpZWRhZGVzLXBhcmEtbnVldmFzLWZvcm1hcy1kZS1vcmdhbml6YWNpbiUyMiUyMHRpdGxlJTNEJTIyTm93Y2FzdGluZyUyQyUyMHNvY2llZGFkZXMlMjBwYXJhJTIwbnVldmFzJTIwZm9ybWFzJTIwZGUlMjBvcmdhbml6YWNpJUMzJUIzbiUyMiUyMHRhcmdldCUzRCUyMl9ibGFuayUyMiUzRU5vd2Nhc3RpbmclMkMlMjBzb2NpZWRhZGVzJTIwcGFyYSUyMG51ZXZhcyUyMGZvcm1hcyUyMGRlJTIwb3JnYW5pemFjaSVDMyVCM24lM0MlMkZhJTNFJTIwJTNDJTJGc3Ryb25nJTNFJTIwZnJvbSUyMCUzQ3N0cm9uZyUzRSUzQ2ElMjBocmVmJTNEJTIyJTJGJTJGd3d3LnNsaWRlc2hhcmUubmV0JTJGaXRkVVBNJTIyJTIwdGFyZ2V0JTNEJTIyX2JsYW5rJTIyJTNFSW5ub3ZhdGlvbiUyMGFuZCUyMFRlY2hub2xvZ3klMjBmb3IlMjBEZXZlbG9wbWVudCUyMENlbnRyZSUzQyUyRmElM0UlM0MlMkZzdHJvbmclM0UlMjAlM0MlMkZkaXYlM0U=Implicaciones y problemas
Esteban Moro concluyó la conferencia defendiendo que tenemos que movernos a una sociedad basada en datos.
Un gobierno basado en datos, por ejemplo, tomaría decisiones más acertadas y, sobre todo, transparentes: existiría la posibilidad de publicar tanto los datos tenidos en cuenta como la algorítmica para la toma de decisión, dejando claro en qué parte de la toma de decisión ha intervenido el factor humano, en vez de dejar la decisión a expertos o intereses de todo tipo.
Además, estas políticas podrían ser testadas con poblaciones de control bien monitorizadas, probándose varias alternativas.
Para Moro, los problemas que hay que resolver en este proceso de transformación son:
- Trazabilidad de los datos: actualmente es muy difícil saber quién está usando los datos que producimos, ni qué está haciendo con ellos.
- Valor de los datos: la pertenencia de los datos en sí está clara, pero no así su valor. Las personas deben cobrar conciencia de hasta qué punto está cediendo en privacidad y decidir cómo quieren ser expuestos.
N no es igual a todos: El Big Data, al trabajar con grandes cantidades de muestras, puede llevar a pensar que esas mismas muestras representan a toda la población cuando pueden estar muy sesgadas a los más jóvenes, los más ricos, etc. Por eso defiende el uso extendido de lo que en Ciencias Sociales se lleva usando toda la historia: segmentación.