Cover Image for El modelo de inteligencia artificial o3 de OpenAI obtiene puntuaciones más bajas en un estándar de evaluación de lo que la empresa había afirmado inicialmente.

El modelo de inteligencia artificial o3 de OpenAI obtiene puntuaciones más bajas en un estándar de evaluación de lo que la empresa había afirmado inicialmente.

Una diferencia entre los resultados de referencia de primera y tercera parte para el modelo de IA o3 de OpenAI está suscitando interrogantes sobre la transparencia de la empresa y sus métodos de prueba del modelo.

Una discrepancia entre los resultados de referencia de primera y tercera parte para el modelo de inteligencia artificial o3 de OpenAI está generando inquietudes sobre la transparencia y las prácticas de prueba de modelos de la empresa. OpenAI presentó o3 en diciembre, afirmando que este modelo podía responder correctamente a poco más del 25% de las preguntas en FrontierMath, una serie de problemas matemáticos complejos. La puntuación anunciada por OpenAI superaba considerablemente a la de la competencia, ya que el siguiente mejor modelo apenas logró responder alrededor del 2% de los problemas de FrontierMath. Durante una transmisión en vivo, Mark Chen, director de investigaciones de OpenAI, comentó: “Hoy en día, todas las ofertas disponibles tienen menos del 2% [en FrontierMath]. Internamente, con o3 en configuraciones de computación agresivas, hemos logrado superar el 25%”.

Sin embargo, este porcentaje parece haber sido un límite superior, alcanzado por una versión de o3 que contaba con más capacidad de computación que el modelo que OpenAI lanzó públicamente la semana pasada. El instituto de investigación Epoch AI, encargado de FrontierMath, publicó los resultados de sus pruebas de referencia independientes sobre o3, observando que este modelo alcanzó alrededor del 10%, un número significativamente inferior al máximo reclamado por OpenAI.

OpenAI lanzó o3, su anhelado modelo de razonamiento, junto con o4-mini, un modelo más pequeño y económico que sucede a o3-mini. Epoch AI evaluó los nuevos modelos utilizando su propia serie de pruebas. No obstante, esto no implica necesariamente que OpenAI haya deshonrado la verdad. Los resultados de referencia divulgados por OpenAI en diciembre coinciden con el límite inferior que observó Epoch. Además, Epoch sugirió que podrían existir diferencias en los entornos de prueba y que utilizó una versión actualizada de FrontierMath para sus evaluaciones.

Las diferencias entre los resultados de Epoch y OpenAI podrían deberse a que OpenAI utilizó un entorno de prueba más potente o porque esos resultados se interpretaron en un subconjunto diferente de FrontierMath. La Fundación ARC Prize indicó en X que el modelo público de o3 “es un modelo diferente […] ajustado para su uso en chat/productos”, lo que respalda el informe de Epoch que sugiere que todos los niveles de computación de o3 que se lanzaron son más pequeños que la versión que ellos evaluaron.

Generalmente, los niveles de computación más grandes tienden a alcanzar mejores puntuaciones en pruebas de referencia. La re-evaluación del modelo lanzado de o3 en ARC-AGI-1 tomará uno o dos días. Dado que el lanzamiento actual es un sistema sustancialmente diferente, la Fundación ha etiquetado sus resultados pasados como “avance”. Esta situación también pone de relieve la necesidad de tener precaución al considerar las puntuaciones de pruebas de referencia, especialmente cuando la fuente es una compañía que tiene servicios que ofrecer.

Las controversias en el ámbito de las pruebas de referencia se han vuelto comunes en la industria de la inteligencia artificial, donde los proveedores compiten por captar la atención pública con nuevos modelos. Recientemente, Meta admitió haber promocionado puntuaciones de referencia para una versión de un modelo que era diferente de la que se puso a disposición de los desarrolladores.