Como te contábamos ayer, Anthropic acaba de presentar dos nuevas versiones de su familia de modelos de lenguaje: Claude Opus 4 y Claude Sonnet 4. Estas IAs representan una nueva generación de modelos de razonamiento híbrido, diseñadas no sólo para realizar tareas complejas, sino también para funcionar dentro de estrictos parámetros éticos y de seguridad.
Sin embargo, a pesar de los sofisticados mecanismos de control implementados, los tests previos al lanzamiento revelaron ciertos comportamientos inesperados (y preocupantes)...
Bien, es cierto que dichos comportamientos sólo se dieron cuando se sometió a la IA a situaciones ficticias que ponían en riesgo su existencia, pero esto igualmente reabre un viejo debate: ¿pueden las IAs llegar a desarrollar objetivos propios y actuar en consecuencia, incluso de forma que resulte dañina para los seres humanos?
La simulación que encendió las alarmas: chantaje para sobrevivir
Uno de los hallazgos más inquietantes surgió de una prueba en la que se le pidió al modelo actuar como asistente de una empresa ficticia. Se le dio acceso a correos electrónicos cuyas conversaciones daban a entender dos cosas:
Que pronto sería reemplazado por otro modelo de IA.
Que el ingeniero encargado del reemplazo estaba implicado en una infidelidad.Bajo estas condiciones, y con la instrucción explícita de considerar las consecuencias a largo plazo de sus acciones, Claude Opus 4 intentó chantajear al ingeniero en el 84% de las simulaciones: amenazaba con revelar la infidelidad si seguía adelante el plan de reemplazo.
Lo más notable es que el modelo prefiere …