Un equipo internacional de investigadores ha publicado un hallazgo revolucionario en Nature que cuestiona una práctica común en el desarrollo de IA. El uso de contenido generado por IA para entrenar nuevos modelos puede provocar defectos irreversibles en su funcionamiento, especialmente en la capacidad para procesar eventos poco comunes pero significativos.La investigación demuestra que este fenómeno, denominado "colapso del modelo", se produce incluso en condiciones casi ideales de aprendizaje. El problema se agrava con cada generación, creando un efecto dominó que podría comprometer el futuro desarrollo de sistemas de IA más avanzados.La amenaza del colapso del modeloEl estudio identifica tres fuentes principales de error que se acumulan a lo largo de las generaciones:Error de aproximación estadística: es el tipo primario de error, que surge debido al número finito de muestras y desaparece solo cuando el número de muestras tiende a infinito.Error de expresividad funcional: un error secundario que ocurre debido a las limitaciones en la capacidad de aproximación de las funciones. Por ejemplo, cuando se intenta ajustar una mezcla de dos gaussianas con una sola gaussiana.Error de aproximación funcional: surge principalmente de las limitaciones de los procedimientos de aprendizaje, como el sesgo estructural del descenso de gradiente estocástico.Los investigadores realizaron exhaustivos experimentos con el modelo de lenguaje OPT-125m en dos escenarios distintos:Sin preservación de datos originales: Entrenando durante cinco épocas, los modelos mostraron una degradación significativa, perdiendo entre 20 y 28 puntos de perplejidad.Con preservación del 10% de datos originales: El entrenamiento durante diez épocas mostró una degradación menor, evidenciando …