¿Por qué los modelos de IA consumen tanta energía?. La forma en que se entrenan actualmente los modelos de IA es muy ineficiente y las estructuras son cada vez más complejas y costosas.

¿Por qué los modelos de IA consumen tanta energía?

Avatar de Luis Antonio Costa
La forma en que se entrenan actualmente los modelos de IA es muy ineficiente y los marcos se están volviendo cada vez más complejos y costosos.

Google despidió recientemente a una destacada investigadora de ética de IA (inteligencia artificial) después de que expresara su frustración con la empresa por obligarla a sacar un artículo de investigación de los resultados del motor de búsqueda de Google. El artículo señaló los riesgos de usar inteligencia artificial de procesamiento de lenguaje, precisamente el tipo que se usa en la Búsqueda de Google y otros productos de análisis de texto.

Entre los riesgos citados está el gran "huella de carbono" al desarrollar este tipo de tecnología de IA. Según algunas estimaciones, entrenar un modelo de IA genera tantas emisiones de carbono como las que se necesitan para construir y conducir cinco automóviles durante su vida útil.

Dado que la IA se está convirtiendo en una herramienta computacional cada vez más utilizada en nuestro entorno tecnológico, es necesario preguntarse: ¿por qué los modelos de IA se han vuelto tan hambrientos de energía? ¿En qué se diferencian de la informática tradicional del centro de datos?

El entrenamiento actual de IA es ineficiente

Trabajos tradicionales de procesamiento de datos realizados en centros de datos (más conocidos como los centros de datos) incluir el streaming vídeo, correo electrónico y redes sociales. La IA es más intensiva desde el punto de vista computacional porque necesita leer una gran cantidad de datos hasta que aprende a comprenderlos, es decir, a ser entrenada.

Tal capacitación es ineficiente en comparación con la forma en que las personas realmente aprenden. La IA moderna utiliza redes neuronales artificiales, es decir, cálculos matemáticos que simulan el comportamiento de las neuronas en el cerebro humano. La fuerza de conexión de cada neurona con su vecina es un parámetro de red llamado peso. Entonces, para aprender a comprender el idioma, la red comienza con pesos aleatorios y los ajusta hasta que la salida concuerda con la respuesta correcta.

red neuronal sencilla
Los modelos de IA a menudo usan redes neuronales artificiales como esta para algoritmos de entrenamiento y aprendizaje.

La imagen ejemplifica el funcionamiento de una red neuronal artificial simple. La red recibe dos entradas: la imagen de un perro y un gato que serán las entradas ("Entrada"🇧🇷 El modelo sabe, de antemano, que la respuesta esperada es que la imagen seleccionada sea la del perro. Por lo tanto, cada flecha que sale de una entrada tiene un peso de probabilidad diferente, que luego se usa en combinación con la entrada para alimentar una de las neuronas en la primera capa ("oculto"🇧🇷 Luego, cada neurona tiene una función de costo matemática definida que se calcula en las neuronas de salida ("producción"🇧🇷 La neurona que presente mayor probabilidad será la salida seleccionada.

Una forma común de entrenar una red de idiomas, por ejemplo, es alimentarla con mucho texto de sitios como Wikipedia y medios de comunicación con algunas de las palabras ocultas y pidiéndole que adivine esas palabras.

Un ejemplo es “mi gato es lindo”, con la palabra “lindo” oculta. Inicialmente, el modelo perderá todas las palabras "conjeturas", pero después de muchas rondas de ajuste, los pesos de conexión comienzan a cambiar y recogen patrones en los datos. De esta manera, la red finalmente se vuelve precisa. Es una práctica elegante de la técnica de prueba y error.

Para tener una idea del tamaño de la conjuntos de datos (conjunto de datos de entrenamiento) utilizado por IA, un modelo reciente desarrollado por Google y llamado Representaciones de codificadores bidireccionales de transformadores (BERTI, “Representaciones de codificadores bidireccionales de transformadores”, un homenaje al personaje homónimo de la serie los Muppets) utilizó 3,3 millones de palabras de libros en inglés y artículos de Wikipedia.

Algoritmo Bert de Google
BERT es un algoritmo de IA que promete mejorar los resultados de búsqueda de Google.

Además, durante el entrenamiento, BERT leyó este conjunto de datos no solo una vez, sino 40 veces. Desafortunadamente, ejecutar múltiples rondas de entrenamiento es un paso esencial en el proceso de aprendizaje de una IA porque, como dice el dicho, “la práctica hace la perfección🇧🇷 En el caso de la IA, cuantas más rondas se ejecuten, más precisa se vuelve la IA.

Sin embargo, cuando comparamos este método con una forma de aprendizaje utilizada por humanos, un niño que está aprendiendo a hablar puede escuchar 45 millones de palabras a la edad de cinco años, 3 mil veces menos que BERT con su metodología de entrenamiento.

En busca de la estructura neuronal adecuada

Precisamente porque el proceso de entrenamiento se desarrolla en varias rondas durante el desarrollo de estas IA, los modelos de lenguaje se vuelven muy caro para construir. Esto se debe precisamente a que los investigadores quieren encontrar la mejor estructura para la red, es decir, cuántas neuronas, cuántas conexiones entre neuronas, la velocidad con la que deben cambiar los parámetros durante el aprendizaje, etc.

Cuanto mayor sea el número de combinaciones diferentes que se prueben durante el entrenamiento de IA, mayores serán las posibilidades de lograr un alto grado de precisión. Es un proceso muy diferente al que ocurre con el cerebro humano, por ejemplo, ya que nuestra mente no necesita encontrar una estructura óptima para comprender el mundo que nos rodea, ya que siglos de evolución ya nos han presentado una estructura preconstruida.

A medida que las empresas y los académicos compiten en el espacio de la IA, existe presión para mejorar el "estado del arte", un término que se refiere al nivel más alto de conocimiento en un área específica alcanzado hasta la fecha. Incluso lograr una mejora del 1% en la precisión de tareas difíciles como la traducción automática se considera un logro significativo y conduce a una buena publicidad y mejores productos. Sin embargo, para obtener esta pequeña mejora, un investigador necesita entrenar el modelo miles de veces, cada vez con una estructura diferente, hasta encontrar la mejor.

¿Por qué los modelos de IA consumen tanta energía?. La forma en que se entrenan actualmente los modelos de IA es muy ineficiente y las estructuras son cada vez más complejas y costosas.
Al buscar la estructura adecuada para una red neuronal, los investigadores y las empresas buscan algo que ofrezca el mayor grado de precisión posible.

Investigadores de Universidad de Massachusetts Amherst estimó el costo de energía de desarrollar modelos de IA para el procesamiento del lenguaje midiendo el consumo de energía de hardware comúnmente utilizado durante el entrenamiento. Descubrieron que la capacitación BERT, por ejemplo, alguna vez tuvo un costo de energía similar al de un pasajero que realizaba un viaje de ida y vuelta entre Nueva York y San Francisco.

Sin embargo, al buscar utilizando diferentes marcos, es decir, entrenar el algoritmo varias veces con el mismo conjunto de conjuntos de datos, pero con un número ligeramente diferente de neuronas, conexiones y otros parámetros, ¡el costo se convirtió en el equivalente a 315 pasajeros, o un avión 747 completo!

IA más grandes y calientes

Otro gran problema con los modelos de IA actuales es que son mucho más grandes de lo que deberían ser y, lo que es peor, crecen cada año. Un nuevo modelo de lenguaje similar a BERT llamado GPT-2, tiene 1,5 millones de pesos o parámetros en su red. Por otro lado, el GPT-3, que tiene un alto grado de precisión, ¡es de 175 mil millones de pesos!

Es natural que las redes más grandes conduzcan a una mayor precisión. Una buena analogía para entender por qué toda la estructura de un modelo de IA no se usa activamente para predecir resultados es lo que sucede en el propio cerebro humano, ya que no todas las partes del cerebro se usan para comprender un texto, por ejemplo. La diferencia es que el cerebro biológico es mucho más eficiente energéticamente que las computadoras.

Frases y palabras que alimentan un modelo de IA
GPT-3 es un modelo de IA que tiene 175 mil millones de pesos diferentes para evaluar las entradas de palabras y frases.

Es necesario considerar que los modelos de IA están entrenados en hardware como grandes unidades de procesamiento de gráficos, que consumen más energía que las CPU tradicionales. Dado que las tarjetas gráficas se vuelven cada vez más poderosas en comparación con los procesadores que normalmente se usan en las computadoras, tiene sentido que algoritmos tan costosos se ejecuten en componentes apropiados para respaldar toda la demanda de cálculos, procesamiento y gasto de energía.

Si tiene una PC o computadora portátil para juegos, es probable que venga equipada con una tarjeta gráfica NVIDIA (en la mayoría de los casos) con tecnología RTX. Y no solo los investigadores y los informáticos pueden aprovechar la potencia de procesamiento de estas tarjetas gráficas para entrenar sus modelos de IA, sino que los juegos que utilizan la tecnología DLSS también aprovechan la potencia computacional de estos componentes.

Aun así, persiste el problema del alto consumo de energía, ya que una PC o laptop con este tipo de tarjeta gráfica genera mucho más calor que las máquinas normales al usar la tarjeta gráfica para ejecutar modelos de IA.

RTX 3060
Para ejecutar las miles de rondas de entrenamiento del modelo de IA, solo los procesadores de tarjetas gráficas como el nuevo RTX 3060 de NVIDIA pueden manejarlo.

Todo ello hace que el desarrollo de modelos avanzados de IA añada un gran coste energético y, en consecuencia, produzca un alto impacto ambiental en la generación de esta energía. A menos que cambiemos a fuentes de energía 100% renovables, el progreso de la IA podría estar en desacuerdo con los objetivos para reducir las emisiones de gases de efecto invernadero y frenar el cambio climático.

Además, el costo de desarrollar modelos de IA también se está volviendo tan alto que solo unos pocos laboratorios selectos pueden pagarlo. Esto termina generando un monopolio de quienes tienen conocimiento sobre el estado del arte de las IA y también la definición de cómo se desarrollarán estos modelos a partir de ahora.

Construyendo modelos de IA que hacen más con menos

Pero, al fin y al cabo, ¿qué supone este aumento exponencial de los costes energéticos de los modelos de IA para el futuro de la investigación en este ámbito? A pesar de las indicaciones de que los modelos solo tienden a ser más grandes y más costosos desde el punto de vista computacional, todavía es posible imaginar una perspectiva más optimista para este escenario.

El costo de entrenar modelos de IA puede disminuir a medida que se inventen métodos de entrenamiento más eficientes. Asimismo, aunque se preveía que el uso energético de los centros de datos explotado en los últimos años, esto no sucedió debido a las mejoras en la eficiencia de estos gigantescos centros de almacenamiento de datos, principalmente en términos de mejorar hardware y prácticas de enfriamiento más eficientes.

También existe una compensación entre el costo de entrenar los modelos de IA y el costo de usarlos, por lo que gastar más tiempo de entrenamiento para crear un modelo más pequeño puede hacerlos más baratos. Después de todo, un modelo se usará muchas veces durante su vida útil, lo que generará un gran ahorro de energía.

modelos simples de IA
El enfoque de la investigación en modelos de IA se está volviendo cada vez más hacia estructuras más pequeñas que tienen la misma eficiencia, pero usan menos energía.

Además de aumentar su eficiencia y grado de precisión, el mayor desafío de investigación en modelos de IA hoy en día es buscar formas de hacerlos más pequeños, compartiendo pesos o usando los mismos pesos en varias partes de la red. Este tipo de enfoque de la estructura de la red neuronal se denomina redes de cambio, porque un pequeño conjunto de pesos se puede reconfigurar en una red más grande de cualquier forma o estructura.

Con eso en mente, la comunidad de IA debería invertir más en el desarrollo de esquemas de capacitación energéticamente eficientes. De lo contrario, corremos el riesgo de que la IA sea dominada por un grupo selecto de empresas o centros de investigación que marcarán el futuro de la IA, incluidos qué tipos de modelos se desarrollarán, qué tipos de datos se utilizarán y cómo se realizará la formación. . Al final, tendremos más inteligencia “comercial” que “artificial”.

fuente: ARS Techina


Descubra más sobre Showmetech

Regístrate para recibir nuestras últimas novedades por correo electrónico.

Puestos Relacionados