
Los debates sobre la evaluación de la IA han llegado al mundo de Pokémon.
Ni siquiera Pokémon se libra de la controversia relacionada con la evaluación de inteligencia artificial. La semana pasada, un mensaje en X se volvió muy popular, afirmando que el nuevo modelo Gemini de Google había superado a otros.
Recientemente, el mundo de Pokémon se ha visto envuelto en la controversia de los estándares de evaluación de inteligencia artificial. La semana pasada, una publicación en X se volvió viral al afirmar que el nuevo modelo Gemini de Google había superado al destacado modelo Claude de Anthropic en la trilogía original de videojuegos de Pokémon. Según se informa, Gemini alcanzó la localidad de Lavender Town durante una transmisión en Twitch de un desarrollador, mientras que Claude se encontraba estancado en Mount Moon desde finales de febrero.
Sin embargo, lo que no se mencionó en la publicación es que Gemini contaba con una ventaja significativa. Usuarios en Reddit señalaron que el desarrollador que mantiene la transmisión de Gemini creó un minimapa personalizado que ayuda al modelo a identificar "tiles" en el juego, como árboles que se pueden cortar. Esto reduce la necesidad de que Gemini analice capturas de pantalla antes de tomar decisiones sobre el juego.
Si bien Pokémon puede considerarse un referente de evaluación de IA bastante discutible, ya que pocos sostendrían que sea una prueba muy informativa de las capacidades de un modelo, sirve como un ejemplo revelador de cómo diferentes implementaciones de un estándar de evaluación pueden influir en los resultados. Por ejemplo, Anthropic reportó dos puntuaciones para su modelo Anthropic 3.7 Sonnet en el benchmark SWE-bench Verified, diseñado para evaluar las habilidades de programación de un modelo. El modelo Claude 3.7 Sonnet obtuvo una precisión del 62.3% en SWE-bench Verified, pero alcanzó un 70.3% utilizando un "andamiaje personalizado" que desarrolló Anthropic.
Más recientemente, Meta afinó una versión de uno de sus nuevos modelos, Llama 4 Maverick, para que tuviera un buen desempeño en un benchmark específico, LM Arena. La versión estándar del modelo logró puntuaciones significativamente peores en la misma evaluación. Esto indica que, dado que los benchmarks de IA —incluido Pokémon— son medidas imperfectas desde el inicio, las implementaciones personalizadas y no estándar amenazan con complicar aún más la comparación entre modelos a medida que se lanza nueva tecnología.