Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Genbeta

Publicado en: 26/04/2024 09:01

Escrito por: Marcos Merino

Los modelos de IA estaban cada vez más empatados, pero esta nueva forma de evaluarlos deja claro que GPT-4 es el rey

En el campo de la inteligencia artificial, poder evaluar de manera fiable los modelos de lenguaje natural (la categoría en la que entran GPT-4, LLaMa-3 o Claude 3) resulta crucial para determinar su capacidad y precisión. Sin embargo, la creación de un benchmark (conjunto de pruebas) de alta calidad para evaluar estos modelos resulta ser todo un desafío.

Los benchmarks actuales para chatbots de lenguaje natural tienen varias limitaciones. Por ejemplo, muchos de ellos son estáticos o limitados a cuestionarios de opción múltiple, y no reflejan la complejidad y variedad de las conversaciones humanas. Además, estos benchmarks no pueden separar claramente las capacidades de los modelos, lo que hace que sea difícil determinar cuál es mejor en cada caso.

Llega el momento del desempate

En respuesta a esto, LMSYS ha desarrollado 'Arena-Hard', una nueva metodología para generar benchmarks de alta calidad a partir de datos en tiempo real, recopilados a través de una plataforma de crowdsourcing (es decir, en la que los usuarios aportan sus valoraciones), que permiten evaluar las capacidades de los modelos.

En Genbeta

Anthropic lanza Claude 3 y promete lograr lo que parecía imposible: ser superior a GPT-4 en muchas pruebas

El lanzamiento de Arena-Hard ha generado un amplio interés en la comunidad IA debido a que, a diferencia de los test anteriores (donde los resultados tendían a ser muy homogéneos, generando empates múltiples en las primeras posiciones), Arena-Hard ha aumentado su …

Lee toda la nota original aquí

Top noticias del 26 de Abril de 2024

SAND LAND: Videojuego lanza mensaje póstumo de Akira Toriyama

Cómo ver Telecinco y los canales de Mediaset en directo y sin TDT

"No deberían cobrar por un modo de juego": estos fans arremeten contra este título que cobra 250 por tener ventajas exclusivas

Inteligencia Artificial crea versión de Mario Bros ambientado en 1950

Batería híbrida de sodio, carga ultrarrápida y potencia sin precedentes

Este estabilizador tiene una increíble relación calidad precio y cuesta poco más de 1,000 pesos en Mercado Libre

Mercedes-Benz presenta la nueva G 580 eléctrica: la Clase G se reinventa con tecnología EQ

$Estaba condenada al fracaso pero se estrenó después de Volver al futuro y fue un éxito llevado a película de culto$