
Estudio señala a LM Arena por facilitar la manipulación de sus métricas a laboratorios líderes en IA.
Un nuevo estudio señala a LM Arena, la entidad responsable del reconocido benchmark de inteligencia artificial Chatbot Arena, de facilitar que algunas empresas de IA manipulen su lista de clasificaciones.
Un reciente estudio llevado a cabo por un laboratorio de inteligencia artificial, junto con varias instituciones académicas, ha acusado a LM Arena, la organización responsable del conocido benchmark crowdsourced Chatbot Arena, de favorecer a un grupo selecto de empresas de inteligencia artificial en la obtención de mejores puntuaciones en su clasificación, en detrimento de sus competidores. Los autores del estudio argumentan que LM Arena permitió a algunos de los líderes del sector, como Meta, OpenAI, Google y Amazon, probar de manera privada varias versiones de modelos de inteligencia artificial, ocultando luego los resultados de los que tuvieron un rendimiento más bajo. Esto facilitó que estas compañías alcanzaran posiciones destacadas en la clasificación del sitio, algo que, según los autores, no fue una oportunidad ofrecida a todas las empresas.
Sara Hooker, vicepresidenta de investigación de inteligencia artificial en Cohere y coautora del estudio, señaló en una entrevista que solo una pequeña cantidad de empresas fueron informadas sobre esta posibilidad de pruebas privadas, y que la cantidad de pruebas a las que accedieron algunas de ellas fue significativamente mayor que la de otras. En sus argumentos, describió esta situación como una forma de "gamificación".
Chatbot Arena, creado en 2023 como un proyecto de investigación académica por la Universidad de California en Berkeley, se ha convertido en un estándar de referencia para las empresas de inteligencia artificial. El funcionamiento del sitio consiste en enfrentar las respuestas de dos modelos de inteligencia artificial en una "batalla" y permitir que los usuarios elijan cuál es la mejor. No es raro que modelos no divulgados compitan en el arena bajo seudónimos. Los votos que se reciben a lo largo del tiempo contribuyen a la puntuación de un modelo y, por ende, a su posición en la clasificación de Chatbot Arena.
A pesar de que muchos actores comerciales participan en Chatbot Arena, LM Arena ha defendido constantemente que su benchmark es justo e imparcial, pero los autores del estudio sostienen que esto no se refleja en la realidad. En particular, alegan que Meta logró probar 27 variantes de modelos en el Chatbot Arena entre enero y marzo, justo antes del lanzamiento de su modelo Llama 4, y que al hacerlo, solo divulgó la puntuación de un único modelo que casualmente se ubicó entre los más altos de la clasificación.
LM Arena, a través de su cofundador y profesor en UC Berkeley, Ion Stoica, desestimó las afirmaciones del estudio, alegando que contiene "inexactitudes" y un análisis "cuestionable". En un comunicado, reafirmaron su compromiso con evaluaciones justas y transparentes, invitando a todos los proveedores de modelos a enviar más para su evaluación.
El estudio se llevó a cabo entre noviembre de 2024 y marzo de 2025, y los autores analizaron más de 2.8 millones de batallas en Chatbot Arena durante este periodo. Afirmaron haber encontrado pruebas de que ciertos competidores, como Meta y OpenAI, obtuvieron acceso privilegiado para recolectar más datos al ver sus modelos en un mayor número de "batallas", otorgándoles una ventaja injusta.
Según los investigadores, el uso de datos adicionales podría mejorar el rendimiento de un modelo en Arena Hard, otro benchmark de la organización, en un 112%. Sin embargo, LM Arena argumentó que no hay una correlación directa entre el rendimiento en Arena Hard y en Chatbot Arena.
Hooker destacó que la forma en que algunas empresas recibieron acceso prioritario es incierta, pero considera que es esencial que LM Arena aumente su transparencia. En respuesta, LM Arena afirmó que varias de las referencias proporcionadas en el estudio no reflejan la realidad y señalaron que modelos de laboratorios no principales aparecen en más batallas de Chatbot Arena de lo que el estudio sugiere.
Una limitación importante del estudio radica en que se basó en la "autodefinición" para determinar cuáles modelos estaban en pruebas privadas, lo cual no es un método infalible. A pesar de ello, Hooker mencionó que cuando los autores compartieron sus hallazgos preliminares con LM Arena, la organización no los disputó.
El estudio sugiere que LM Arena debería implementar cambios para hacer Chatbot Arena más equitativo, incluyendo establecer límites claros sobre el número de pruebas privadas permitidas y la divulgación pública de los resultados de estas pruebas. LM Arena rechazó estas sugerencias, afirmando que ha compartido información sobre pruebas previas desde marzo de 2024. También consideran que no tiene sentido mostrar resultados de modelos no disponibles públicamente, ya que la comunidad de inteligencia artificial no puede evaluarlos.
Por último, los investigadores propusieron ajustar la tasa de muestreo de Chatbot Arena para garantizar que todos los modelos pudieran aparecer en la misma cantidad de batallas. LM Arena ha estado abierta a esta recomendación y planea crear un nuevo algoritmo de muestreo. Este análisis se presenta en un contexto donde se aumenta la vigilancia sobre las organizaciones de benchmarks privados y su capacidad para evaluar modelos de inteligencia artificial sin influencias corporativas.