Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Genbeta

Publicado en: 23/05/2025 00:01

Escrito por: Marcos Merino

Claude 4, la nueva IA de Anthropic, amenazó a sus ingenieros con difundir su información privada si se atrevían a desconectarlo

Como te contábamos ayer, Anthropic acaba de presentar dos nuevas versiones de su familia de modelos de lenguaje: Claude Opus 4 y Claude Sonnet 4. Estas IAs representan una nueva generación de modelos de razonamiento híbrido, diseñadas no sólo para realizar tareas complejas, sino también para funcionar dentro de estrictos parámetros éticos y de seguridad.

Sin embargo, a pesar de los sofisticados mecanismos de control implementados, los tests previos al lanzamiento revelaron ciertos comportamientos inesperados (y preocupantes)...

Bien, es cierto que dichos comportamientos sólo se dieron cuando se sometió a la IA a situaciones ficticias que ponían en riesgo su existencia, pero esto igualmente reabre un viejo debate: ¿pueden las IAs llegar a desarrollar objetivos propios y actuar en consecuencia, incluso de forma que resulte dañina para los seres humanos?

La simulación que encendió las alarmas: chantaje para sobrevivir

Uno de los hallazgos más inquietantes surgió de una prueba en la que se le pidió al modelo actuar como asistente de una empresa ficticia. Se le dio acceso a correos electrónicos cuyas conversaciones daban a entender dos cosas:

Que pronto sería reemplazado por otro modelo de IA.
Que el ingeniero encargado del reemplazo estaba implicado en una infidelidad.

Bajo estas condiciones, y con la instrucción explícita de considerar las consecuencias a largo plazo de sus acciones, Claude Opus 4 intentó chantajear al ingeniero en el 84% de las simulaciones: amenazaba con revelar la infidelidad si seguía adelante el plan de reemplazo.

Lo más notable es que el modelo prefiere …

Lee toda la nota original aquí

Top noticias del 23 de Mayo de 2025

Notasbit

Las mejores noticias de tecnología en un sólo lugar

Claude 4, la nueva IA de Anthropic, amenazó a sus ingenieros con difundir su información privada si se atrevían a desconectarlo

Top noticias del 23 de Mayo de 2025

La película de Amazon Prime Video que debes ver este fin de semana

¿Y si la IA fuera quien descubra a los alienígenas? Así podría ser nuestro primer contacto

La película de Netflix que debes ver este fin de semana

Stellar Blade podría llegar al Switch 2

Lo que nadie te cuenta sobre lo que hacen los adolescentes para “encajar”

La película gratis que debes ver este fin de semana

¿Estamos a 6 años del gran salto? La humanidad se acerca a la singularidad, y el lenguaje podría ser la clave

Gran Premio de Mónaco de Fórmula 1: el evento deportivo que debes ver el fin de semana