Imagen de un llm sobre un fondo con otros elementos

Dentro de los LLM: Cómo piensa ChatGPT

Avatar de Luis Antonio Costa
Comprenda qué son los LLM y cómo funcionan, el cerebro detrás de agentes de IA como ChatGPT

A cualquiera que le pregunten cómo ChatGPTSi el agente de IA más popular funciona hoy en día, muchos tendrán la respuesta en la punta de la lengua: inteligencia artificial. Pero esa respuesta es muy vaga. A pesar de ser uno de los campos de estudio con mayor investigación y desarrollo en la Computación actual, la inteligencia artificial abarca varias temáticas científicas.

Una de ellas es la clave detrás de cómo funcionan ChatGPT y la mayoría de los agentes de IA disponibles en la web: LLM. En este artículo exploraremos en detalle cómo este concepto revolucionó la inteligencia artificial y nuestro mundo.

¿Qué son los modelos de lenguaje grande (LLM)?

Modelos de lenguaje grande (LLMs, Large Language Models, en portugués) son algoritmos para Aprendizaje profundo (Deep Learning, en portugués) capaz de realizar una serie de tareas Procesamiento natural del lenguaje (Procesamiento del Lenguaje Natural, en portugués). Ufff, ¡cuántas siglas! ¿Verdad?

Los LLM utilizan modelos de transformadores y se entrenan utilizando conjuntos de datos masivos. Algunos ejemplos de conjuntos de datos populares son: LAION-2B-es, Extensión CCW e WikiTexto-103. Un modelo de transformador puede parecer un robot que se transforma en un automóvil, pero en el campo de la IA es la arquitectura más común para un LLM.

El transformador consta de un codificador (codificador, en portugués) y un descifrador (descodificador, en portugués). Básicamente, el codificador se encarga de separar las palabras de una oración o texto en pequeñas partes llamadas tokens, y el decodificador realiza operaciones matemáticas para identificar relaciones entre estos tokens.

Arquitectura simplificada del transformador
La arquitectura del Transformer codifica palabras y oraciones en el codificador y las decodifica con el decodificador que será utilizado por el LLM. (Imagen: Showmetech)

La gran diferencia entre los transformadores y la arquitectura utilizada hace años, LSTM (Memoria a corto plazo largo, o Memoria a Largo Plazo), es que los transformadores trabajan con mecanismos de autoatención, es decir, son capaces de aprender más rápido al considerar partes de una oración o incluso su contexto, para generar predicciones.

Los LLM son sistemas de IA versátiles que, además de poder procesar el lenguaje humano, también pueden realizar otras tareas como analizar estructuras de proteínas y generar código de programación. Para funcionar de manera eficiente, los LLM requieren capacitación previa y un ajuste cuidadoso para manejar funciones como clasificación de texto, resumen y respuesta a preguntas, lo que los hace valiosos para industrias como la atención médica, las finanzas y el entretenimiento.

Componentes de la llave

Los LLM se componen de múltiples capas de redes neuronales. En una red neuronal (Red neuronal, en inglés), básicamente se utiliza una variable como entrada, se procesa con diferentes pesos y ecuaciones matemáticas por una o más capas y se genera un valor de salida.

El primer tipo de red neuronal presente en los LLM es la capa de incrustación (capa de incrustación, en Inglés). Es responsable del proceso de incrustación, capturando la semántica y el significado sintáctico de la entrada, para que el modelo pueda comprender el contexto.

Luego tenemos la capa feedforward (FFN, Feedforward Network, en inglés) que está compuesta por múltiples capas interconectadas que transforman las entradas de incrustación. En este proceso, estas capas permiten que el modelo recopile abstracciones de nivel superior, es decir, comprenda la intención del usuario con la entrada de texto.

Componentes clave de un LLM descritos
La red neuronal, la capa de inserción y la red de propagación hacia adelante son los componentes clave para el funcionamiento de un LLM. (Imagen: Showmetech)

A continuación, tenemos la capa recurrente que interpreta las palabras del texto de entrada en secuencia. Es responsable de capturar la relación entre las palabras de una oración.

Por último, pero no menos importante, tenemos el mecanismo de atención que permite al LLM centrarse en partes individuales del texto de entrada que son relevantes para la tarea asignada. Esta capa permite que el modelo genere los resultados más apropiados y precisos.

Cómo trabajan ellos

Ahora que sabemos qué son los LLM y cuáles son sus componentes clave, podemos entender más claramente cómo funcionan. Básicamente, los LLM basados ​​en transformadores toman una entrada, la codifican y luego la decodifican para producir una salida prevista. Sin embargo, antes de que un LLM pueda tomar una entrada de texto y generar una salida prevista, necesita entrenamiento para realizar funciones generales y ajustes que le permitan realizar tareas específicas.

Pre-entrenamiento (Pre-entrenamiento, en inglés) es un proceso clásico en el campo de Aprendizaje automático (Aprendizaje automático, en inglés) dentro de la Inteligencia Artificial. Este proceso, como sugiere su nombre, consiste en entrenar previamente a los LLM utilizando grandes conjuntos de datos textuales de billones de palabras de sitios web como Wikipedia , GitHub, entre otros. Al fin y al cabo, el LLM necesita aprender de algún lugar, como un niño pequeño, ¿no?

Durante esta etapa, el LLM realiza el llamado aprendizaje no supervisado (Aprendizaje sin supervisión, en inglés): un proceso en el que los conjuntos de datos simplemente se leen sin instrucciones de manipulación específicas. En otras palabras, sin un “instructor”, el propio algoritmo de IA del LLM es responsable de aprender el significado de cada palabra y las relaciones entre ellas. Además, LLM también aprende a distinguir palabras según el contexto. Por ejemplo, aprende a comprender si “derecha” significa “correcto” o es simplemente “lo opuesto de izquierda”.

Ahora viene el proceso de ajuste fino (Sintonia FINA, en inglés) sirve para “ajustar” con precisión el LLM para realizar eficientemente tareas específicas, como la traducción de textos, optimizando su rendimiento. El ajuste de las indicaciones (preguntas e instrucciones dadas al LLM) funciona como una especie de ajuste fino, ya que puede entrenar al modelo para realizar una determinada tarea.

Modelos de aprendizaje automático: preentrenamiento, aprendizaje no supervisado y ajuste.
El proceso de diseño detrás de un LLM consta de tres pasos principales: preentrenamiento, aprendizaje no supervisado y ajuste. (Imagen: Showmetech)

Para que un modelo de lenguaje grande realice una tarea específica, como la traducción, debe estar adaptado a esa tarea específica. El ajuste fino optimiza el rendimiento para tareas específicas.

El ajuste de indicaciones cumple una función similar al ajuste fino, es decir, el entrenamiento de un modelo para realizar una tarea específica a través de indicaciones de pocos ensayos o de cero ensayos. A continuación se muestra un ejemplo de un ejercicio de “análisis de sentimientos” que utiliza una indicación de unas pocas tomas:

Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo

Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo

A partir de los resultados obtenidos en este ejemplo, LLM entendería, a través del significado semántico de “horrible” y porque se proporcionó un ejemplo opuesto, que el sentimiento del usuario en el segundo ejemplo es “negativo”.

Escenarios de uso

Como mencionamos anteriormente, los LLM se pueden utilizar para varios propósitos:

  • Recuperación de información: En este caso podemos imaginar su uso en buscadores web, como Google o Bing. Cuando un usuario utiliza la función de búsqueda de estos servicios, está utilizando LLM para producir información en forma de respuesta a su solicitud. Los LLM pueden recuperar información, resumirla y comunicar la respuesta en forma de conversación con el usuario.
  • Generación de texto y código de programaciónLos LLM son el “motor” principal detrás de la IA generativa como ChatGPT, y pueden generar texto y código de programación basados ​​en entradas e indicaciones. Por ejemplo, chatGPT es capaz de comprender patrones y puede responder eficientemente a solicitudes de usuarios como “escribir un poema sobre flores al estilo de Manuel Bandeira” o “escribir un código Python capaz de ordenar una lista de películas en orden alfabético”.
  • Chatbots e IA conversacionales: Los LLM ya pueden ofrecer servicio al cliente a través de agentes de chatbot que conversan con los consumidores, interpretan el significado de sus preguntas e inquietudes y ofrecen respuestas u orientación adecuadas.

Además de estos escenarios de uso, los LLM están demostrando ser una herramienta de IA prometedora en los campos de la tecnología, la salud y la ciencia, el marketing, el derecho y también para su uso en sistemas bancarios. Para darle una idea, los LLM actualmente pueden predecir con un alto grado de precisión la aparición del cáncer de mama simplemente analizando conjuntos de muestras de células con un mayor nivel de precisión que muchos médicos experimentados.

Robot hablando con un médico sobre un fondo con gráficos.
El campo de la salud puede beneficiarse enormemente del uso de LLM para la automatización de tareas. (Imagen: Reproducción/Cogitotech)

LLM y Transformador Generativo Pre-Entrenado (GPT)

O Transformador preentrenado generativo (GPT) es un tipo específico de LLM que utiliza una arquitectura de transformador y fue desarrollado por la empresa OpenAI. Está diseñado para comprender, generar y manipular el lenguaje natural (como el portugués o el inglés) de una manera altamente eficiente y realista.

Desglosando el nombre, podemos entender mejor qué es un GPT:

  • Alianzas (Generativo, en portugués): Indica que el modelo genera texto, es decir, es capaz de producir nuevas oraciones, respuestas, resúmenes, códigos, etc.
  • pre-entrenado (Pre-entrenado, en portugués): Esto significa que está previamente entrenado con una gran cantidad de texto de Internet, como libros, artículos, sitios web y otros. Luego se puede ajustar para tareas específicas.
  • transformador: Como mencionamos anteriormente, esta es la arquitectura de red neuronal que proporciona la base para el modelo. Es altamente paralelizable (puede ejecutar múltiples tareas simultáneamente) y eficiente en el manejo de largas secuencias de texto.
Openia chatgpt con un cerebro al lado y circuitos electrónicos
ChatGPT, de la empresa OpenAI, es el agente de IA más famoso que utiliza el modelo GPT. (Imagen: Reproducción/Knowledgiate)

La gran diferencia entre GPT y otros LLM es su fase de formación, que consta de 3 procesos diferentes:

  • Pre-entrenamiento: Se extraen enormes cantidades de datos de Internet, libros e incluso vídeos y música, y luego se procesan para convertirlos en tokens.
  • Instrucciones de ajuste fino: Aquí se le “enseña” al modelo cómo debe responder a instrucciones específicas, alineando sus respuestas para que sean más precisas.
  • Aprendizaje por refuerzo mediante retroalimentación humana: similar al ajuste fino, aquí la “enseñanza” se realiza a través de retroalimentación humana que induce el proceso de “aprendizaje por refuerzo”, donde la IA aprende qué es “correcto” y qué es “incorrecto” a través de repeticiones e información proporcionada por un agente externo, en este caso, el usuario que utiliza la IA.

Historia: de miles de millones de palabras a textos complejos

Aunque el auge de los modelos de lenguaje recién se produjo en 2017, desde 1990 los modelos de alineación de IBM fueron pioneros en el modelado estadístico del lenguaje. En 2001, un modelo entrenado con 3 millones de palabras logró el "Estado del arte" en términos de precisión en la interpretación de textos y la construcción de oraciones cohesivas.

Inteligencia artificial y tecnología en foco, destacando recursos innovadores y avances tecnológicos modernos.
Millones tras millones, los LLM se volvieron más robustos y realizaron tareas más complejas. (Imagen: Reproducción/Singularity Hub)

A partir de 2012 Redes neuronales ganó más prominencia en el mundo de la IA y pronto comenzó a utilizarse para tareas de lenguaje. En 2016, Google adoptó la Traducción Neural Machine (Traducción Automática Neuronal, en portugués) utilizando modelos basados ​​en este concepto. En 2018, la empresa OpenAI se dedicó por completo al desarrollo de agentes de IA basados ​​en LLM y lanzó GPT-1 para pruebas, y recién al año siguiente GPT-2 comenzó a atraer la atención del público debido a sus posibles usos poco éticos.

En 2020 el GPT-3 Llegó con acceso restringido solo vía API, pero fue recién en 2022 que ChatGPT (el agente de IA “impulsado” por GPT-3) captó la atención del público de todo el mundo.
Está previsto que el GPT-4 se lance en 2023 con capacidades multimodales, aunque no se han publicado detalles técnicos. En 2024, OpenAI lanzó el modelo o1, centrado en generar largas cadenas de razonamiento. Estas herramientas han impulsado la adopción generalizada de LLM en diversos campos de investigación.

Chatgpt, inteligencia artificial, asistente virtual, innovación en tecnología.
A partir de 2022, los LLM han ganado relevancia mundial cuando se utilizan en ChatGPT, uno de los agentes de IA más populares de todos los tiempos. (Imagen: Reproducción/OpenAI)

A partir de 2024, todos los LLM más grandes y eficientes se basan en la arquitectura del transformador, y algunos investigadores experimentan y prueban con otras arquitecturas, como Redes neuronales recurrentes (Redes Neuronales Recurrentes, en portugués).

Los beneficios y limitaciones de los LLM

Con una amplia gama de aplicaciones, los LLM son excepcionalmente beneficiosos para la resolución de problemas, ya que proporcionan información en un estilo claro y simple que es fácil de entender para los usuarios. Además, se pueden utilizar para traducir idiomas, completar oraciones, analizar sentimientos, responder preguntas, resolver ecuaciones matemáticas y más.

El rendimiento de los LLM mejora constantemente a medida que crece y se agregan más datos y parámetros. En otras palabras, cuanto más aprendes, mejor te vuelves. Además, los modelos lingüísticos de gran tamaño pueden exhibir lo que se denomina “aprendizaje en contexto”. Una vez que se ha entrenado previamente un LLM, el aviso de pocos disparos permite que el modelo aprenda de la indicación sin ningún parámetro adicional. De esta manera va aprendiendo continuamente.

Al demostrar el aprendizaje en contexto, los LLM aprenden rápidamente porque no requieren peso, recursos ni parámetros adicionales para la capacitación. Son rápidos en el sentido de que no requieren de muchos ejemplos para volverse más “inteligentes”.

El aprendizaje cerebral a partir de múltiples fuentes
Como todos los algoritmos basados ​​en IA, los LLM aprenden mejor cuanto más datos consumen y analizan. (Imagen: Reproducción/Incorporada)

Una característica clave de los LLM es su capacidad para responder a consultas impredecibles. Un programa de computadora tradicional, por ejemplo, recibe comandos en su sintaxis aceptada o desde un conjunto dado de entradas del usuario. Por otro lado, un LLM puede responder al lenguaje humano natural y utilizar el análisis de datos para responder una pregunta o solicitud no estructurada de una manera que tenga sentido. Aunque un programa informático típico no reconocería una pregunta como "¿Cuáles son las cinco mejores bandas de rock de la historia?", un LLM podría responder con una lista de cinco de esas bandas y un argumento razonablemente convincente de por qué son las mejores.

Sin embargo, en términos de la información que proporcionan, los LLM sólo pueden ser tan confiables como los datos que reciben. Si reciben información falsa en la fase de preentrenamiento, proporcionarán información falsa en respuesta a las consultas de los usuarios. A veces los LLM también pueden “alucinar” creando respuestas e incluso falsificando fuentes literarias cuando no son capaces de producir una respuesta precisa.

Por ejemplo, en 2022, la agencia de noticias Fast Company Le pregunté a ChatGPT sobre el trimestre financiero anterior de la empresa. Tesla. Si bien ChatGPT proporcionó un artículo de noticias coherente en respuesta, gran parte de la información contenida en él era inventada. Dado que es un sistema basado en IA, se sabe que está en constante mejora, pero todavía es incorrecto confiar al 100% en las respuestas producidas por los LLM.

En términos de seguridad, las aplicaciones de usuario basadas en LLM son tan propensas a errores como cualquier otra aplicación. Los LLM también pueden manipularse a través de información maliciosa para proporcionar ciertos tipos de respuestas en lugar de otros, incluidas respuestas peligrosas o poco éticas.

El chatbot de Lego comete errores en las tareas
Los sistemas de IA basados ​​en LLM aún no son infalibles y pueden cometer errores y responder con información falsa. (Imagen: Reproducción/IEEE Spectrum)

Por último, uno de los problemas de seguridad de los LLM es que los usuarios pueden cargar datos seguros y confidenciales para aumentar su propia productividad. Pero los LLM usan las entradas que reciben para entrenar aún más sus modelos y no están diseñados para ser bóvedas seguras, ya que pueden exponer datos confidenciales en respuesta a consultas de otros usuarios.

LLMs y la inteligencia detrás de las palabras

Como un niño suelto en una biblioteca gigante, los LLM son sistemas de inteligencia artificial inteligentes que aprenden a comprender y reproducir el lenguaje humano natural basándose en enormes cantidades de datos. Si bien brindan muchos beneficios a los usuarios comunes y se convierten en una poderosa herramienta auxiliar en el entorno profesional, las capacidades y los peligros de los LLM aún deben estudiarse con mucho cuidado.

Y a ti, ¿qué te ha parecido la explicación de este artículo sobre los LLM? Deja tu opinión en los comentarios.

Ver más

Fontes: Búsqueda elástica, CloudFare, IBM

Revisado por tiago rodrigues en 16 / 04 / 2025


Descubra más sobre Showmetech

Regístrate para recibir nuestras últimas novedades por correo electrónico.

Puestos Relacionados