
El avance en los modelos de IA de 'razonamiento' podría desacelerarse pronto, según un análisis.
Un análisis realizado por un instituto de investigación sin fines de lucro sobre inteligencia artificial indica que la industria de la IA podría tener dificultades para obtener grandes avances a partir de modelos de inteligencia artificial basados en el razonamiento en un futuro cercano.
Un análisis realizado por Epoch AI, un instituto de investigación en inteligencia artificial sin fines de lucro, indica que la industria de la IA podría enfrentar dificultades para obtener mejoras significativas a partir de modelos de razonamiento en el corto plazo. Según los hallazgos, es posible que el progreso de estos modelos se desacelere en el transcurso del próximo año.
Los modelos de razonamiento, como el o3 de OpenAI, han mostrado avances considerables en varias métricas de inteligencia artificial recientemente, especialmente en aquellas que evalúan habilidades matemáticas y de programación. Estos modelos tienen la capacidad de aplicar más recursos de computación a los problemas, lo que les permite mejorar su rendimiento, aunque esto a menudo implica que tardan más que los modelos convencionales en completar tareas.
El proceso de desarrollo de los modelos de razonamiento inicia con el entrenamiento de un modelo convencional utilizando una gran cantidad de datos. Luego, se aplica una técnica conocida como aprendizaje por refuerzo, que proporciona "retroalimentación" al modelo sobre sus soluciones a problemas complejos. Sin embargo, Epoch resalta que hasta ahora, laboratorios de IA de vanguardia, como OpenAI, no han utilizado una cantidad significativa de potencia de computación en la etapa de aprendizaje por refuerzo.
Este panorama está cambiando, ya que OpenAI ha declarado que aplicó aproximadamente diez veces más potencia de computación para entrenar o3 en comparación con su predecesor, o1, y Epoch especula que gran parte de este cómputo se dedicó al aprendizaje por refuerzo. Recientemente, el investigador de OpenAI, Dan Roberts, comentó que los planes futuros de la compañía incluyen dar prioridad al aprendizaje por refuerzo, utilizando aún más potencia de cómputo que la empleada en el entrenamiento inicial del modelo.
No obstante, según Epoch, existe un límite en cuanto a la cantidad de computación que puede dedicarse al aprendizaje por refuerzo. Josh You, un analista de Epoch y autor del análisis, menciona que las ganancias de rendimiento del entrenamiento de modelos de IA estándar están aumentando actualmente cuatro veces cada año, mientras que las provenientes del aprendizaje por refuerzo crecen diez veces cada 3 a 5 meses. You también advierte que el progreso del entrenamiento de razonamiento "probablemente converja con el límite general para 2026".
El análisis de Epoch plantea diversas suposiciones y se fundamenta, en parte, en comentarios públicos de ejecutivos de empresas de IA. También sugiere que escalar los modelos de razonamiento podría ser complicado por razones que van más allá de la computación, como los altos costos de investigación. Según You, "si hay un costo permanente asociado a la investigación, los modelos de razonamiento podrían no escalar tan lejos como se espera".
Bajo este contexto, cualquier indicio de que los modelos de razonamiento puedan alcanzar algún tipo de límite en un futuro cercano podría preocupar a la industria de la IA, que ha invertido enormes recursos en el desarrollo de estos modelos. Ya se han realizado estudios que apuntan a que los modelos de razonamiento, que pueden ser muy costosos de operar, presentan graves deficiencias, como una tendencia a "alucinar" más que ciertos modelos convencionales.