Cover Image for Los nuevos modelos de IA de razonamiento de OpenAI presentan más alucinaciones.

Los nuevos modelos de IA de razonamiento de OpenAI presentan más alucinaciones.

Los modelos de inteligencia artificial de razonamiento de OpenAI están mejorando, pero su tendencia a generar información errónea no está disminuyendo, según los resultados de las pruebas de referencia.

OpenAI ha lanzado recientemente sus modelos de inteligencia artificial o3 y o4-mini, que presentan características avanzadas en varios aspectos. Sin embargo, estos nuevos modelos aún enfrentan el problema de las "alucinaciones", un fenómeno en el que el modelo genera información incorrecta o falsa. Curiosamente, o3 y o4-mini tienden a alucinar más que algunos de sus modelos anteriores. Las alucinaciones siguen siendo uno de los mayores y más difíciles retos en el campo de la inteligencia artificial, afectando incluso a los sistemas más avanzados de hoy en día.

Históricamente, cada nueva versión de un modelo ha mostrado mejoras, alucinado menos que su predecesor. Sin embargo, esta tendencia no se mantiene en los modelos más recientes de OpenAI. Según pruebas internas de la empresa, o3 y o4-mini, que se consideran modelos de razonamiento, presentan una tasa de alucinaciones más alta que los modelos de razonamiento anteriores, como o1, o1-mini y o3-mini, así como los modelos más tradicionales de la compañía, como GPT-4o. Un factor preocupante es que OpenAI no ha logrado determinar la razón detrás de estas alucinaciones, señalando en su informe técnico que “se necesita más investigación”.

Aunque o3 y o4-mini han mostrado un mejor desempeño en áreas como la programación y matemáticas, tienden a realizar “más afirmaciones en general”, lo que resulta en un mayor número de afirmaciones tanto precisas como inexactas. En una prueba específica, o3 alucinó en un 33% de las preguntas del benchmark PersonQA, el cual mide la precisión sobre el conocimiento de personas. Esta cifra es aproximadamente el doble que la tasa de alucinaciones de los modelos anteriores, que fueron de 16% y 14.8%, respectivamente. El modelo o4-mini superó a o3 en términos de alucinaciones, llegando a un 48% en PersonQA.

Adicionalmente, pruebas realizadas por Transluce, un laboratorio de investigación en inteligencia artificial, encontraron que o3 tiene una tendencia a inventar acciones al llegar a sus respuestas. Un caso reportado mostró que o3 afirmaba haber ejecutado código en un MacBook Pro de 2021, lo cual no es posible para el modelo. Investigadores como Neil Chowdhury han formulado la hipótesis de que el tipo de aprendizaje por refuerzo utilizado en los modelos de la serie o podría intensificar problemas que normalmente se mitigan con otros enfoques de post-entrenamiento.

Por su parte, Sarah Schwettmann, cofundadora de Transluce, sugirió que la tasa de alucinaciones de o3 podría limitar su utilidad en comparación con otros modelos. Kian Katanforoosh, profesor adjunto en Stanford y director ejecutivo de Workera, ha comenzado a probar o3 en sus flujos de trabajo de programación, encontrándolo superior a otros en el mercado. Sin embargo, también ha notado que el modelo a menudo proporciona enlaces de sitios web que no funcionan al ser clicados.

Aunque las alucinaciones pueden ayudar a los modelos a generar ideas creativas, también pueden ser un obstáculo para su adopción en entornos empresariales donde la precisión es crucial. Por ejemplo, bufetes de abogados no estarían conformes con un modelo que comete errores factuales en los contratos de sus clientes. Una estrategia prometedora para mejorar la precisión de los modelos consiste en ofrecer capacidades de búsqueda web. El modelo GPT-4o con búsqueda web logra alcanzar un 90% de precisión en otro de los benchmarks de OpenAI, SimpleQA, sugiriendo que la búsqueda podría reducir la frecuencia de alucinaciones en modelos de razonamiento, especialmente si los usuarios están dispuestos a permitir que sus consultas sean expuestas a un proveedor de búsqueda externo.

Si el aumento de la complejidad de los modelos de razonamiento continúa relacionado con un incremento en las alucinaciones, se volverá aún más urgente encontrar una solución. Un portavoz de OpenAI ha afirmado que abordar las alucinaciones es un área de investigación activa y que continúan trabajando para mejorar la precisión y fiabilidad de sus modelos. En el último año, la industria de la inteligencia artificial ha enfocado su atención en los modelos de razonamiento, debido a que las técnicas para mejorar los modelos tradicionales han mostrado rendimientos decrecientes. Sin embargo, parece que el razonamiento también podría estar relacionado con un aumento en las alucinaciones, presentando un desafío adicional.