Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Genbeta

Publicado en: 26/04/2024 09:01

Escrito por: Marcos Merino

Los modelos de IA estaban cada vez más empatados, pero esta nueva forma de evaluarlos deja claro que GPT-4 es el rey

Los modelos de IA estaban cada vez más empatados, pero esta nueva forma de evaluarlos deja claro que GPT-4 es el rey

En el campo de la inteligencia artificial, poder evaluar de manera fiable los modelos de lenguaje natural (la categoría en la que entran GPT-4, LLaMa-3 o Claude 3) resulta crucial para determinar su capacidad y precisión. Sin embargo, la creación de un benchmark (conjunto de pruebas) de alta calidad para evaluar estos modelos resulta ser todo un desafío.

Los benchmarks actuales para chatbots de lenguaje natural tienen varias limitaciones. Por ejemplo, muchos de ellos son estáticos o limitados a cuestionarios de opción múltiple, y no reflejan la complejidad y variedad de las conversaciones humanas. Además, estos benchmarks no pueden separar claramente las capacidades de los modelos, lo que hace que sea difícil determinar cuál es mejor en cada caso.

Llega el momento del desempate

En respuesta a esto, LMSYS ha desarrollado 'Arena-Hard', una nueva metodología para generar benchmarks de alta calidad a partir de datos en tiempo real, recopilados a través de una plataforma de crowdsourcing (es decir, en la que los usuarios aportan sus valoraciones), que permiten evaluar las capacidades de los modelos.










En Genbeta

Anthropic lanza Claude 3 y promete lograr lo que parecía imposible: ser superior a GPT-4 en muchas pruebas


El lanzamiento de Arena-Hard ha generado un amplio interés en la comunidad IA debido a que, a diferencia de los test anteriores (donde los resultados tendían a ser muy homogéneos, generando empates múltiples en las primeras posiciones), Arena-Hard ha aumentado su …

Top noticias del 26 de Abril de 2024