Ten en cuenta el impacto del carbono que genera Big Data
Enero 19, 2023
Enero 19, 2023
El Big Data y la Inteligencia Artificial pueden apoyarnos en una de las principales misiones del siglo XXI: resolver el problema del cambio climático. Sin embargo, cada vez es más evidente que la recopilación y el almacenamiento de datos también pueden ser parte del problema. El consumo de energía de los centros de datos en la Unión Europea podría alcanzar potencialmente un asombroso 3,21% de la demanda total de electricidad para 2030. Con el incremento de los costos de energía y el aumento de los requisitos de transparencia según las regulaciones de ESG, este tema se está volviendo cada vez más relevante no solo a nivel macro, sino también a nivel microeconómico y los ejecutivos necesitan repensar su gestión de datos.
¿Cuántos correos electrónicos has escrito tú y/o tu equipo hoy? Una pregunta bastante simple, pero su respuesta revela mucha información, especialmente, cuando se agrega y analiza a nivel departamental, corporativo o incluso de país. Una posible información que podría recopilarse a partir de las respuestas dadas, son los gramos de CO2e que tú y/o tu equipo producen en un día con solo enviar correos electrónicos. Los estudios han encontrado que un correo electrónico estándar equivale a alrededor de 5-10 gramos de CO2e, pero imagina adjuntar archivos grandes al correo electrónico y este número se duplica o triplica al instante. La recopilación, el envío y, sobre todo, el almacenamiento de datos genera emisiones y, en última instancia, contribuye a dañar nuestro medio ambiente. Esto también es cierto para la computación en la nube, donde la mayoría de los datos se alojan hoy y que todavía está experimentando un gran crecimiento. Ya existen algunas iniciativas tempranas para hacer que las nubes de almacenamiento sean “verdes”, centrándose en el impacto ambiental de los centros de datos. Sin embargo, aún quedan algunos obstáculos por superar para lograr el objetivo de los datos ecológicos, que no solo se pueden realizar a nivel del centro de datos.
En el pasado, las empresas de tecnología recopilaron tanta información como pudieron encontrar. Para simplificar, usaremos la imagen de una aspiradora gigante que reúne toda la información disponible, aunque solo estés detrás de una simple aguja que te está pinchando. Claramente, nunca se sabe si hay una segunda aguja que podría pincharte en el futuro (para relacionar esto con el contexto comercial, dicha aguja podría ser un problema que debe resolverse o una pieza de información que podrías necesitar para un análisis importante). Debido a los costos de almacenamiento y computación que son cada vez más bajos, la recopilación y el almacenamiento generalizados de información tenían sentido en el pasado, sin embargo, la situación está cambiando.
La estrategia de recopilación de datos de "aspiración" tiene dos efectos secundarios negativos principales, que deben tenerse en cuenta:
SNR (relación señal a ruido): Los analistas de datos y las empresas ya no pueden detectar la información relevante, es decir, la señal dentro de la gran cantidad de datos que se les proporcionan. Por esta razón, las compañías empiezan a estar más preocupadas por pensar qué hacer con los datos y cumplir con las obligaciones de almacenamiento y retención establecidas por ley, que por trabajar realmente con ellos. Los altos volúmenes de datos que necesitan ser procesados, conducen a un consumo inmenso de recursos humanos de profesionales altamente capacitados. En la situación actual, estos profesionales no solo son difíciles de encontrar en el mercado laboral, sino que también son caros de mantener. Una posible solución para este problema, por supuesto, sería usar tecnología basada en software. Si bien, ya hay una gran cantidad de herramientas Big Data disponibles en el mercado, el uso de uno de estos instrumentos siempre conlleva el riesgo de altos costos asociados sin crear un impacto comparable en el negocio diario. Incluso las herramientas de datos más conocidas y exitosas necesitan tiempo y las variables de entrada correctas para filtrar los resultados apropiados del enorme grupo de datos. Este proceso también requiere energía, lo que puede generar emisiones de CO2e y, en última instancia, costar dinero a la empresa. Además, existe el riesgo de que las herramientas solo filtren las correlaciones y no las causalidades de los datos. Lo anterior, en el peor de los casos, podría conducir a decisiones equivocadas que pueden perjudicar a la compañía a largo plazo.
Un ejemplo de malinterpretación de datos podría ser el diseño de tiendas minoristas. Imagina que en un análisis reciente, se encontró que los clientes con huellas de calzado más grandes, pasan más tiempo en la tienda y realizan más compras impulsivas. De esta forma, se consigue un mayor volumen de compras por cliente y también por metro cuadrado de superficie comercial. Sin un experimento controlado o una prueba basada en hipótesis, se podría tomar la decisión de construir todas las tiendas nuevas en una superficie más grande, incluso en la ciudad. Sin embargo, es difícil saber si esta relación fue causal. También podría ser que las personas de las zonas rurales pasen más tiempo en la tienda, debido a que compran más y tienen que recorrer distancias más largas para hacer las compras semanales. Además, podrían estar más inclinados a realizar compras impulsivas, debido a otros factores demográficos. Si usas los datos agregados y aplicas la lógica a las tiendas de la ciudad, esta conclusión no necesariamente sería cierta.
Emisiones de gases de efecto invernadero: Recopilar y almacenar grandes cantidades de datos requiere mucha energía, lo que contribuye negativamente, a la huella ecológica de una empresa. Estamos observando una tendencia muy positiva, ya que cada vez más organizaciones están abordando el cambio climático de manera proactiva. Esto también incluye a los grandes proveedores de servicios de computación en la nube (por ejemplo, Google Cloud, Microsoft Azure, AWS e incluso Tencent) que comercializan activamente su servicio como una nube "verde". Las actividades de marketing incluyen la publicación de KPI como PUE (Eficacia del Uso de Energía) y el empleo de compensaciones de carbono (especialmente en los Estados Unidos). Cambiar la forma en que las empresas recopilan, usan y almacenan datos puede tener un efecto impactante para reducir las emisiones de CO2e y alcanzar los objetivos de carbono. La recopilación de una gran cantidad de datos que, en última instancia, ni siquiera se necesitan, le cuesta dinero a la empresa (por ejemplo, los costos de electricidad) y no crea valor.
La cuestión que debe abordarse es cómo decidir qué piezas de información deben recopilarse y almacenarse. La solución simple para este problema de datos sería recopilar solo la información para los casos en los que se van a utilizar en un período de tiempo determinado. Pero esto solo funciona de forma limitada, porque los casos de uso cambian con el tiempo. Dos años después, la falta de datos que podrían haberse recopilado antes, podría aumentar significativamente los costos y la duración del proyecto. En nuestra opinión, hay tres acciones que ayudan a las empresas a mejorar la gestión de su información enfocándose especialmente en la descarbonización.
Las empresas deberían pensar ahora en los casos de uso del mañana. Por supuesto, es más fácil decirlo que hacerlo, pero también se debe tener en cuenta que en un mundo de constante cambio, mantener datos históricos muy largos, solo es útil para casos muy específicos. Ya se puede planificar de antemano qué datos podrían ser necesarios y qué temas son muy poco probables que se necesiten. Sin embargo, se debe tener cuidado con la trampa de coleccionar sin pensar. Las empresas deben asegurar un enfoque en la información más relevante.
La decisión de almacenar datos "fríos/latentes" debe tomarse de manera consciente y está especialmente dirigida a la información que no necesita estar siempre accesible. Obviamente, esta consideración ya debería estar incluida en la planificación de casos de uso antes mencionada. La data que se requiere para proyectos con horizontes de planificación más largos y sin plazos ajustados, se puede almacenar en frío de esta manera. Las ofertas actuales de los proveedores de servicios de acopio muestran que el almacenamiento en frío cuesta en promedio la mitad del costo del almacenamiento en caliente, esto se debe específicamente al menor consumo de energía.
Por supuesto, no basta con planificar una vez y clasificar los datos en diferentes categorías. Los procesos iterativos y recurrentes para identificar datos relevantes y determinar la granularidad de esta información, son el camino hacia el éxito. Siguiendo el lema de que a veces es necesario podar el árbol para que pueda volver a crecer, se debe implementar una gestión ágil de datos dentro de las empresas para garantizar la reevaluación y la eficiencia energética.
No seguir la tendencia de recopilación, análisis y almacenamiento de datos enfocados conducirá, en última instancia, a grandes ineficiencias, análisis inútiles, almacenamiento de datos costoso y un impacto negativo en el medio ambiente. Con nuestra metodología comprobada, tu empresa puede ahorrar entre un 10% y 20% de los costos de almacenamiento de datos y reducirá significativamente tu huella de carbono.
Michael Zeitelberger también contribuyó a este artículo.
Este artículo está basado en el artículo "Considering the carbon impact of Big Data" de Strategy& PwC Alemania. La traducción del texto original (en inglés) publicado en pwc.com es organizada y revisada por PwC Colombia.