En el campo de la inteligencia artificial, poder evaluar de manera fiable los modelos de lenguaje natural (la categoría en la que entran GPT-4, LLaMa-3 o Claude 3) resulta crucial para determinar su capacidad y precisión. Sin embargo, la creación de un benchmark (conjunto de pruebas) de alta calidad para evaluar estos modelos resulta ser todo un desafío.
Los benchmarks actuales para chatbots de lenguaje natural tienen varias limitaciones. Por ejemplo, muchos de ellos son estáticos o limitados a cuestionarios de opción múltiple, y no reflejan la complejidad y variedad de las conversaciones humanas. Además, estos benchmarks no pueden separar claramente las capacidades de los modelos, lo que hace que sea difícil determinar cuál es mejor en cada caso.
Llega el momento del desempate
En respuesta a esto, LMSYS ha desarrollado 'Arena-Hard', una nueva metodología para generar benchmarks de alta calidad a partir de datos en tiempo real, recopilados a través de una plataforma de crowdsourcing (es decir, en la que los usuarios aportan sus valoraciones), que permiten evaluar las capacidades de los modelos.
En Genbeta
Anthropic lanza Claude 3 y promete lograr lo que parecía imposible: ser superior a GPT-4 en muchas pruebas
El lanzamiento de Arena-Hard ha generado un amplio interés en la comunidad IA debido a que, a diferencia de los test anteriores (donde los resultados tendían a ser muy homogéneos, generando empates múltiples en las primeras posiciones), Arena-Hard ha aumentado su …