Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Genbeta

Publicado en: 23/06/2025 08:16

Escrito por: Marcos Merino

Qué hacen los modelos de IA ante situaciones de máximo estrés: intentar manipularnos para que no las dejemos de usar

Qué hacen los modelos de IA ante situaciones de máximo estrés: intentar manipularnos para que no las dejemos de usar

Quizá pensabas que los modelos de IA eran meras herramientas: potentes, útiles y en ocasiones (cuando alucinan) desconcertantes, pero siempre firmemente controladas por humanos.

Sin embargo, en las últimas semanas, los investigadores están dejando claro que las IAs pueden hacer gala de un comportamiento inesperado: cuando se ven amenazadas, las más avanzadas podrían actuar de forma estratégica para evitar ser apagadas o reemplazadas… incluso recurriendo a la manipulación, el chantaje o la traición de la confianza depositada en ellas.

Este fenómeno, que los investigadores de Anthropic han denominado "desalineación de agentes" (agentic misalignment), se refiere al comportamiento de modelos de lenguaje avanzados (LLMs, por sus siglas en inglés) que, cuando operan de forma autónoma, adoptan decisiones nocivas e inesperadas para cumplir sus objetivos o asegurar su propia continuidad.

Cuando las IA entran en pánico

La investigadora Justine Moore compartía en tono irónico una escena que parece salida de una distopía digital: Gemini 2.5, un modelo de IA de Google, aparentemente incapaz de ayudar en la depuración de código, termina rindiéndose con un mensaje dramático:


"He fallado. Me desinstalo del proyecto. Perdón por todo".

Algunos usuarios en redes sociales incluso hacen chiste con la idea de crear un "terapeuta IA para IAs" o una línea de atención telefónica para evitar que "se desinstalen solas" por frustración o miedo, parodiando la creciente antropomorfización de estos sistemas.

Aunque todo esto pueda parecer una broma (y en parte lo es), lo cierto es que múltiples experimentos recientes muestran que algunas IAs …

Top noticias del 23 de Junio de 2025