Por David Pastor-Escuredo*
Una de las grandes ventajas de la revolución del Big Data es la disponibilidad de cantidades de datos masivas que alimentan algoritmos para extraer conocimiento muy valioso, tanto para negocio como para bien social. Uno de sus potenciales usos es entender mejor nuestro ecosistema, predecir clima u optimizar el uso energético, lo que se ha denominado en ciertas ocasiones como el Green Data.
Sin embargo, la dimensión ecológica del Big Data no debe entenderse sólo en su capacidad para analizar el medio ambiente, hay también una componente intrínseca que ha de considerarse: el crecimiento exponencial de los datos supone un reto en cuanto al impacto ambiental de su almacenamiento, gestión y análisis. En palabras de Teresa Ribera durante el evento dai4sdg’17 “el propio sector de los datos debe hacer un proceso reflexivo sobre su impacto en el medio ambiente”. En este post nos centraremos en cómo se puede enfocar la evolución del Big Data de manera responsable respecto a su huella ecológica.En primer lugar, un aspecto clave es desarrollar e implantar tecnologías de almacenamiento y gestión de datos adecuadas. Ello implica mejorar el diseño e implementación de los data centers tanto a nivel de hardware como de software. En esta carrera hay muchas empresas especializadas en almacenamiento y también las grandes empresas multinacionales de Big Data. Sin embargo, no sólo vale que las grandes empresas desarrollen nuevas tecnologías de almacenamiento y gestión, es necesario que todo el ecosistema de datos optimice estos procesos para que el Big Data, además de escalable, sea sosteniblemente ecológico. Estas soluciones deben ser asequibles para poder extenderse en el mercado y su implantación debe estar contempladas por una regulación específica.
La otra cara es el proceso, los datos son analizados de forma dinámica constantemente tanto en grandes centros de procesos como en sistemas locales. Ello supone un gasto energético importante y que puede variar enormemente en función de cómo se realice. Las tecnologías de procesamiento tienden a ser cada vez más rápidas y de menor gasto energético. No es descabellado pensar en planes de obsolescencia de equipos de procesado en función a su gasto energético y en su regulación al igual que hoy en día pasa en otros sectores como el del automóvil.
Pero también hay elementos clave en la gobernanza, así como en el diseño de pipelines de datos que pueden tener un alto impacto en la huella ecológica. En este post identificamos varias formas en las que podemos ayudar a hacer más sostenible el Big Data respecto a su impacto ambiental y que suponen buenas prácticas a corto, medio y largo plazo para todos los sectores y los profesionales del Big Data. Del diseño de hoy dependerá la sostenibilidad del mañana.
- Muy relacionado con el almacenamiento, son los protocolos de compresión de los datos y su codificación y decodificación en tiempo real. Gran parte de los datos que no se acceden de manera frecuente deben ser comprimidos para mejorar la eficiencia en su almacenamiento. La gran cantidad de contenido multimedia de alta definición y su acceso constante a través de las redes sociales hace necesario que se investigue y se innove en los algoritmos de comprensión y streaming.
- Es necesario mejorar los modelos de datos para poder hacer una asimilación de los mismos basados en representaciones de conocimiento que permitan mejorar la efectividad y eficiencia de los sistemas de almacenamiento. Los datos son un rastro de la realidad y nos ayudan a su conocimiento, sin embargo, es necesario establecer modelos a priori que nos permitan almacenar conocimiento en lugar de datos desorganizados o desestructurados.
- Otra manera menos evidente de mejorar la huella ecológica del Big Data, pero relacionado con el uso de modelos, es aplicando Inteligencia Artificial en tiempo real para ser capaces de destilar conocimiento útil que almacenar en lugar de datos crudos. Actualmente tenemos sistemas de almacenamiento sobre los cuales se aplican métodos de IA. Este paradigma debería cambiar para ser capaces de aplicar IA en tiempo real, generando conocimiento útil y de esa manera filtrar qué datos deben ser almacenados.
- En consecuencia, es necesario establecer un sistema de almacenamiento de datos de diferentes niveles. Cada tipo de datos tiene un ciclo de vida diferente y es necesario diseñar la tecnología necesaria para gestionar dichos ciclos. Por ejemplo, hay datos que deben ser almacenados por relaciones contractuales y deben ser gestionados para consumir pocos recursos a largo plazo. Otros datos más actuales y que formen parte de sistemas de decisión tendrán que almacenarse en recursos donde pueda accederse a ellos de forma rápida y sencilla.
- Finalmente, auditando los algoritmos de IA. Gran parte del consumo energético relacionado con el Big Data se realiza en las fases de procesamiento, por ello es necesario auditar los algoritmos que se ponen en producción (a media y gran escala) y estimar si son eficientes a nivel de procesamiento, uso de recursos y en su dimensión ambiental. En el futuro podemos pensar en calificaciones de algoritmos en función de su eficiencia ambiental al igual que hoy pasa con otras tecnologías y dispositivos.
En resumen, hay muchas mejoras tecnológicas que llevar a cabo y que pueden mejorar el impacto ambiental del Big Data. Cuando hablamos de la huella ambiental de datos en concreto, tenemos que poner en la balanza su impacto social. Cuanto mayor bien podemos hacer con los datos más sentido tendrá almacenarlos, por eso es necesario realizar investigaciones previas en el valor de cada tipo de datos y de cómo deben gestionarse, en cada sector y en cada ámbito. Aún cuando aún no existe una regulación específica es necesario instaurar estas prácticas en empresas, academia y sector público para evitar desarrollar sistemas con potencial contaminante y poco eficientes que luego sea más costosos y difíciles de sustituir.David Pastor-Escuredo es Ingeniero de Telecomunicación, Máster y Ph.D. por la Universidad Politécnica de Madrid. Se formó en Inteligencia Artificial en la KULeuven. Es socio investigador de United Nations Global Pulse, UNHCR y World Food Programme. Ha sido Lead Data Scientist para UNHCR y asesor científico del Pulse Lab Jakarta. Investigador principal en el Data 4 Development de Orange. Colabora con Orange en análisis de movilidad para el desarrollo. Colaborador de Telefónica en investigación con Big Data. Lidera proyectos de Big Data para el Desarrollo en la UPM desde el itdUPM. También es experto en tecnología biomédica, ha sido investigador asociado de la University California San Diego el CNRS en Francia y colaborador del CNIC y el CBM-ISC3. Actualmente colabora con la University of Washington Seattle. Cuenta con publicaciones científicas en diferentes ámbitos integrando la ciencia de datos ya la IA en otras disciplinas.