Durante años, las grandes tecnológicas se han defendido de las acusaciones de la industria editorial sosteniendo que los LLM (modelos de lenguaje, o modelos de IA generativa enfocada al texto) no 'copian' obras con copyright (ni ninguna otra), sino que se limitan a aprender patrones y estructuras de lenguaje.
Sin embargo, un reciente estudio pone ahora esta afirmación en entredicho. Investigadores varias universidades estadounidenses han demostrado que LLaMa 3.1, el modelo más reciente de Meta, ha memorizado hasta el 42% de "Harry Potter y la piedra filosofal", primera entrega de la famosa saga de fantasía juvenil.
Esta conclusión no sólo podría afectar a cómo entrena sus modelos de IA la industria, sino que podría tener también profundas repercusiones legales.
¿Qué significa 'memorizar' un libro?
El estudio utilizó una metodología rigurosa: los investigadores dividieron libros en fragmentos de 100 tokens y evaluaron cuántas veces el modelo podía predecir correctamente los 50 tokens siguientes, dados los 50 anteriores, con una probabilidad superior al 50%. Este umbral es exigente: implica que el modelo asigna una probabilidad altísima (en promedio, 98.5%) a cada palabra que sigue.
La sorpresa fue mayúscula: LLaMa 3.1 70B acertó secuencias completas del primer libro de Harry Potter en un 42% de los casos. Esto contrasta con su predecesor LLaMa 1, que sólo recordaba el 4,4% del mismo texto.
¿Cómo es posible que una IA recuerde tanto?
Los modelos como LLaMa 3.1 no funcionan como simples máquinas de predicción: están entrenados con cantidades colosales de datos. Así, LLaMa 3.1 fue …