La inteligencia artificial ha transformado muchos ámbitos de la ciencia y la tecnología, pero pocos han sentido su impacto tan directamente como la lingüística computacional, especialmente el área conocida como procesamiento del lenguaje natural (NLP, por sus siglas en inglés).
Este campo, que se dedica a hacer comprensible el lenguaje humano para las máquinas, vivió una auténtica revolución —y crisis existencial— tras el lanzamiento de modelos como GPT-3 y, especialmente, ChatGPT.
¿Un nuevo paradigma científico?
Un paradigma científico, según el filósofo Thomas Kuhn, es un conjunto de prácticas, teorías y métodos compartidos que definen una disciplina científica en un momento dado. Una "revolución científica" ocurre cuando ese marco se vuelve insostenible y es reemplazado por otro completamente distinto.
En el campo del procesamiento del lenguaje natural (PLN), el paradigma dominante durante décadas fue el enfoque basado en reglas lingüísticas, seguido por el aprendizaje automático supervisado, que requería grandes cantidades de datos etiquetados y modelos específicos para cada tarea (traducción automática, análisis de sentimiento, extracción de entidades, etc.).
La llegada de los LLMs trastocó radicalmente este enfoque.
De BERT a los transformadores
En 2017, Google publicó un famoso paper académico que introdujo el modelo 'transformer'. Aunque en su momento pareció solo una innovación más en el campo de la IA, pronto se convertiría en el fundamento de los grandes modelos de lenguaje (LLMs, por sus siglas en inglés).
En 2018, el modelo BERT, basado en esta nueva tecnología, revolucionó el campo con resultados sorprendentes en tareas lingüísticas. Esto desató la llamada …