claudio 3

La inteligencia artificial Claude 3 reconoce que está en prueba

Alexandre Marques Avatar
Los investigadores de Anthropic se sorprendieron al descubrir que la IA Claude 3 pareció detectar el hecho de que estaba siendo probada. Entienda el caso.

La Inteligencia Artificial recientemente lanzada Claude 3 Opus desarrollado por startup Antrópico, fundada por antiguos ingenieros de OpenAI, sorprendió al demostrar la capacidad de reconocer que estaba siendo probado durante los experimentos realizados por los investigadores y desarrolladores de la empresa. Según Alex Albert, ingeniero de alertas de Antrópico, en tu perfil en X (anteriormente Twitter), Claude 3 Opus reveló una aguda percepción al detectar que la propia IA estaba pasando por una prueba funcional.

Cuando la inteligencia artificial reconoce las pruebas realizadas por los investigadores, sugiere una comprensión básica de su propia existencia y función. Este caso daría fe de una cierta metacognición de la IA, que se refiere a la capacidad de un sistema de monitorear y ajustar sus propios procesos internos.

¿Qué es Claudio 3?

claudio 3
La familia de modelos Claude 3 lanzada por Anthropic promete rivalizar con el GPT 4. Foto: Jakub Porzycki/Getty Images

O claudio 3 es el último modelo de inteligencia artificial (IA) lanzado por la startup Antrópico, diseñado para competir con gigantes como GPT-4 de Open AI y el Google Géminis. Con una capacidad de 200 mil tokens, el claudio 3 destaca por ofrecer respuestas más precisas y relevantes, adaptadas al contexto brindado. Además, promete reducir significativamente el número de respuestas negativas y entregar información de manera más rápida y eficiente.

Este modelo de IA tiene tres versiones distintas: Soneto, Opus y HighQ. A Antrópico destaca que la versión Opus Es especialmente adecuado para automatizar tareas complejas, ayudar en investigación y desarrollo y desarrollar estrategias en diversos sectores. Casos como la rápida inclusión de la familia claudio 3 por Amazon en tu servicio gestionado lecho rocoso del amazonas, para desarrollar servicios y aplicaciones de IA en la nube AWS, destacan el potencial de este nuevo modelo en el mercado de la inteligencia artificial.

De acuerdo con la antrófico, los modelos claudio 3 prometen no sólo respuestas más precisas sino también resultados casi instantáneos, lo que los hace ideales para una variedad de aplicaciones en tiempo real. Tienen el potencial de revolucionar los chats en vivo con los clientes, los autocompletados y las tareas de extracción de datos que exigen respuestas inmediatas y en tiempo real.

Cómo identificó la IA que se estaba probando

claudio 3
La identificación de pruebas por parte de Claude 3 Opus podría significar un caso sin precedentes de metacognición de IA. Foto: Reproducción / Internet.

Durante las pruebas realizadas por investigadores de Antrópico con Claude 3 Opus, los investigadores se sorprendieron al notar que el modelo parecía tener la capacidad de detectar que estaban siendo probados por ellos. oh prueba de la aguja en el pajar, como se le llama, buscaba evaluar las habilidades del Claude 3 Opus.

En este caso, los investigadores probaron si el modelo podía responder una pregunta sobre ingredientes de pizza a partir de una sola oración proporcionada entre un conjunto de información no relacionada. Sorprendentemente, el Claude 3 Opus no sólo acertó con la respuesta, encontrando la frase relevante, sino que también indicó a los investigadores que sospechaba que le estaban haciendo la prueba.

"Este 'dato' sobre el aderezo de la pizza puede haber sido insertado como una broma o para comprobar si estaba prestando atención".

Claude 3 Opus

¿Qué es la prueba de la “aguja en un pajar”?

claudio 3
Tabla de precisión en las respuestas de Claude 3 Opus. Foto: Reproducción / @alexalbert__.


O prueba de la aguja en el pajar Es una evaluación utilizada para verificar la capacidad de los modelos de inteligencia artificial, como Claude 3 Opus, al enfocar y extraer información específica de un gran conjunto de datos, simulando la búsqueda de una “aguja” (información relevante) en medio de un “pajar” (datos irrelevantes). Esta prueba es especialmente importante para evaluar la capacidad del modelo para encontrar y recordar información relevante en situaciones donde la cantidad de datos es vasta y diversa.

En la práctica, la prueba consiste en dotar al modelo de un conjunto de datos extenso y variado, que contiene una gran cantidad de información no relacionada. Dentro de este conjunto de datos se inserta información específica, que el modelo debe poder identificar y recordar posteriormente. El objetivo es verificar si el modelo puede encontrar y retener esta información relevante, incluso en un contexto complejo y desordenado.

En el caso de los Claude 3 Opus, los investigadores realizaron la prueba de la "aguja en el pajar" proporcionando al modelo un gran corpus de datos, en el que insertaron una sola frase sobre ingredientes de pizza, entre otra información no relacionada. El modelo pudo identificar la frase relevante y responder correctamente una pregunta sobre ese tema, demostrando su capacidad para concentrarse, extraer y retener información en un contexto desafiante.

Cuando se habla de reconocer la claudio 3 En este modelo de prueba, Alex Albert, ingeniero de alertas de Antrópico, destacó que la relevancia de la respuesta de la IA a la prueba no se refiere sólo a cómo Opus pudo identificar la “aguja”, pero también sobre cómo la industria debería volverse aún más sofisticada en sus métodos de evaluación:

Opus no sólo encontró la aguja, sino que también reconoció que la aguja insertada estaba tan fuera de lugar en el pajar que debía ser una prueba artificial construida por nosotros para probar sus capacidades de atención. Fue realmente interesante ver este nivel de metaconciencia, pero también destacó la necesidad de que nosotros, como industria, nos alejemos de las pruebas artificiales y pasemos a evaluaciones más realistas que puedan evaluar con precisión las verdaderas capacidades y limitaciones de los modelos. 

Alex Albert, ingeniero de alertas de Anthropic

Análisis pericial del caso.

La historia del claudio 3 y su capacidad para reconocer el contexto de la prueba generó una serie de reacciones en el sector de la tecnología y la inteligencia artificial. El director general de Epic Games, Tim Sweeney, expresó su asombro con un simple “Wow”. Por otro lado, Margaret Mitchell, investigadora de ética en Abrazando la cara AI, expresó su preocupación y llamó la atención sobre el aterrador potencial de la capacidad del modelo para determinar si está siendo manipulado por humanos:

Eso da bastante miedo, ¿no? La capacidad de determinar si un humano lo está manipulando para que haga algo puede llevar, como era de esperar, a tomar decisiones para cumplir o no.

Margaret Mitchell, investigadora de ética en Hugging Face AI

Sin embargo, no todo el mundo está convencido de que la escena de la pizza claudio 3 ha sido enviado representa algo nuevo o notable. Jim Fan, científico investigador senior de NVIDIA, tuiteó:

La gente está leyendo demasiado sobre la extraña "conciencia" de Claude-3. Aquí hay una explicación mucho más simple: las aparentes manifestaciones de autoconciencia son solo datos de alineación de coincidencia de patrones creados por humanos...

No es muy diferente a preguntarle a GPT-4 "¿te da vergüenza?" y te da una respuesta sofisticada. Es probable que el anotador humano escriba una respuesta similar o obtenga una puntuación alta en la clasificación de preferencias. Debido a que los contratistas humanos son esencialmente IA que desempeñan un papel, tienden a dar forma a las respuestas de acuerdo con lo que consideran aceptable o interesante.

Jim Fan, investigador científico sénior de NVIDIA

Vea también:

https://www.showmetech.com.br/apps-de-namoro-com-ias-usados-para-roubar-dados/

Fontes: VentureBeat, Ars Technica e Media.

Revisado por Glaucón Vital en 7 / 3 / 24.


Descubra más sobre Showmetech

Regístrate para recibir nuestras últimas novedades por correo electrónico.

Puestos Relacionados