
La ilusión del pensamiento: Investigación de Apple revela que los modelos de IA fallan y se rinden ante problemas difíciles.
Tú y yo, igual.
Recientes investigaciones en inteligencia artificial realizadas por Apple sugieren que los modelos de razonamiento AI, pese a su popularidad, pueden no estar "pensando" de manera efectiva. Un estudio divulgado días antes del evento WWDC de Apple evidencia que los modelos de razonamiento en gran escala, como OpenAI o1 y o3, DeepSeek R1, Claude 3.7 Sonnet Thinking y Google Gemini Flash Thinking, sufren un colapso total ante problemas cada vez más complejos. Este análisis proviene de los mismos investigadores que el año pasado identificaron fallos de razonamiento en los modelos de lenguaje de gran tamaño (LLMs).
Los hallazgos han sido un duro golpe para los optimistas del conocimiento artificial general (AGI), y a la vez una señal de alivio para sus escépticos, ya que el estudio revela limitaciones notables en la inteligencia de los modelos de razonamiento. A pesar de que estos modelos superaban a los LLMs en acertijos de dificultad media, su desempeño fue inferior en problemas simples y, en situaciones complejas, sucumbieron completamente, abandonando el problema prematuramente. Según la investigación, si bien estos modelos destacan en tareas matemáticas y de programación, en problemas más complejos solo generan "la ilusión de pensar".
A diferencia de otras compañías como Google y Samsung, Apple ha sido cautelosa en la implementación de modelos de lenguaje grandes y funcionalidades de inteligencia artificial, lo que podría explicar su reticencia para adoptar plenamente la IA en sus dispositivos. Este nuevo estudio podría ofrecer una perspectiva sobre por qué la empresa ha mantenido un enfoque más conservador en comparación con sus competidores.
Los investigadores utilizaron problemas lógicos clásicos, como el rompecabezas de la Torre de Hanoi, para examinar las habilidades de razonamiento de los LRMs. Este tipo de acertijo implica mover discos de un soporte a otro bajo ciertas restricciones, lo que permite evaluar la capacidad de razonamiento y resolución de problemas, tanto en humanos como en máquinas. Sin embargo, los resultados iniciales indican que las LRMs comienzan a fallar después de un cierto nivel de complejidad, mostrando una disminución progresiva en la precisión a medida que los problemas se vuelven más complicados.
Por ejemplo, al incorporar un quinto disco en la Torre de Hanoi, modelos como Claude 3.7 Sonnet y DeepSeek R1 mostraron tasas de éxito decrecientes, incluso cuando se les proporcionó mayor potencia computacional. A medida que se hacía el problema más difícil, los modelos de razonamiento empezaron a reducir su esfuerzo de razonamiento, lo que resultó en un colapso de su precisión.
Es importante matizar que estos descubrimientos no significan que los LRMs carezcan completamente de capacidad de razonamiento, sino que no están significativamente más avanzados que los humanos en esta área. Un experto en IA señaló que las limitaciones observadas en los modelos pueden reflejar también límites conocidos del razonamiento humano. Además, las comparativas con intentos humanos en estos acertijos no fueron parte del estudio.
En resumen, aunque los LLMs son útiles en ciertas tareas como programación y escritura, sus limitaciones también son evidentes. La investigación sugiere que, pese al entusiasmo en torno a los avances de la IA, es prudente considerar los resultados con un enfoque crítico y en el contexto del vasto panorama de la inteligencia artificial.