Los 'modelos transformer', desarrollados en su momento por la división de investigación de Google, han sido la arquitectura clave en el ámbito de la inteligencia artificial en los últimos años en múltiples campos, desde la generación de texto (todos los chatbots actuales se basan en ellos) hasta el análisis de imágenes.
Sin embargo, su desempeño se ve limitado cuando se trata de manejar contextos de larga duración. En respuesta a este desafío, Google ha vuelto a innovar presentando un 'paper' académico que detalla las características de una nueva arquitectura de IA (denominada 'titans') que la forma en que los modelos de IA gestionan la memoria y procesan información en contextos extremadamente largos.
Esta investigación promete redefinir los límites de lo que las máquinas serían capaces de aprender y recordar, marcando un nuevo hito en la evolución de los sistemas de aprendizaje profundo.
En Genbeta
Google llega tarde a competir con ChatGPT... pero sin una legendaria innovación suya de 2017 su rival ni existiría
El problema de los 'transformers'
Los Transformers enfrentan una limitación inherente: su capacidad para manejar ventanas contextuales largas está restringida por el coste exponencial de la memoria. Esto dificulta tareas como el razonamiento en contextos extensos (como cuando tienen que tener en cuenta el contenido completo de documentos extensos), la síntesis de datos históricos y aplicaciones que requieren una memoria más robusta, como el modelado genómico o el análisis de series temporales.
¿Qué …