Cover Image for Codex de OpenAI se une a una nueva generación de herramientas de codificación autónomas.

Codex de OpenAI se une a una nueva generación de herramientas de codificación autónomas.

Las nuevas herramientas de codificación de vibra pueden operar con mayor autonomía, aunque persisten inquietudes sobre su fiabilidad.

Recientemente, OpenAI lanzó un nuevo sistema de programación llamado Codex, diseñado para ejecutar tareas complejas de programación a partir de comandos en lenguaje natural. Este desarrollo sitúa a OpenAI en una nueva categoría de herramientas de codificación "agentes", que apenas están empezando a emerger. Desde los primeros días de Copilot de GitHub hasta herramientas contemporáneas como Cursor y Windsurf, la mayoría de los asistentes de codificación basados en IA funcionan como una forma muy avanzada de autocompletar. Estas herramientas generalmente se utilizan en entornos de desarrollo integrados, donde los usuarios interactúan directamente con el código generado por la inteligencia artificial.

El sueño de simplemente asignar una tarea y regresar cuando haya sido completada aún parece lejano. Sin embargo, estas nuevas herramientas de codificación, representadas por productos como Devin, SWE-Agent y OpenHands, están diseñadas para operar sin que los usuarios tengan que visualizar el código. Su objetivo es funcionar como gerentes de un equipo de ingeniería, delegando tareas a través de sistemas laborales como Asana o Slack y revisando cuando se haya alcanzado una solución.

Para quienes creen en las formas de inteligencia artificial altamente capaces, este es un paso lógico en la evolución de la automatización, que asume cada vez más tareas relacionadas con el software. Kilian Lieret, investigador de Princeton y miembro del equipo de SWE-Agent, explica que inicialmente, todo consistía en escribir código pulsando cada una de las teclas. GitHub Copilot fue el primer producto que ofreció una funcionalidad real de autocompletar, lo cual representaba un avance. La propuesta de los sistemas agentes es ir más allá de los entornos de desarrollo, presentando simplemente el problema y dejando que la IA lo resuelva de manera autónoma.

Lieret menciona que se busca volver al nivel de gestión, donde solo se asigna un informe de error y el bot intenta solucionarlo completamente por sí mismo. Sin embargo, este ambicioso objetivo ha demostrado ser complicado. Tras el lanzamiento de Devin a finales de 2024, recibió duras críticas de comentaristas en YouTube y una respuesta más moderada de un cliente inicial de Answer.AI. La impresión general fue familiar para quienes han trabajado en el ámbito de la codificación: con numerosos errores, supervisar estos modelos requiere tanto trabajo como realizar la tarea manualmente.

A pesar de esto, la empresa matriz de Devin, Cognition AI, ha sido capaz de captar la atención de inversores, logrando recaudar cientos de millones de dólares a una valoración de 4 mil millones de dólares. No obstante, incluso los defensores de esta tecnología advierten sobre los riesgos de la codificación autónoma, considerando que los nuevos agentes deben ser vistos como herramientas poderosas dentro de un proceso de desarrollo supervisado por humanos. Robert Brennan, CEO de All Hands AI, enfatiza que, al menos en el futuro cercano, debe haber intervención humana durante la revisión de código para verificar la validez de lo que ha generado la IA.

Las “alucinaciones” son un problema persistente, con Brennan recordando un incidente en el que el agente de OpenHands creó detalles ficticios sobre una API que se lanzó después de la fecha de corte de los datos de entrenamiento del agente. All Hands AI está trabajando para desarrollar sistemas que puedan detectar estas alucinaciones antes de que causen daños, aunque no existe una solución sencilla para el problema.

Una forma de medir el progreso en programación agente es a través de las clasificaciones de SWE-Bench, donde los desarrolladores pueden evaluar sus modelos con un conjunto de problemas no resueltos de repositorios abiertos en GitHub. Actualmente, OpenHands lidera la tabla verificada, resolviendo el 65.8% del conjunto de problemas. OpenAI afirma que uno de los modelos que impulsan a Codex, codex-1, puede tener un rendimiento superior, listando un 72.1%, aunque esta cifra incluye ciertas salvedades y no ha sido verificada de manera independiente.

La preocupación en la industria tecnológica radica en que altas puntuaciones en los benchmarks no necesariamente implican una codificación agente completamente autónoma. Si estos sistemas solo pueden resolver tres de cada cuatro problemas, necesitarán un considerable apoyo de desarrolladores humanos, especialmente al abordar sistemas complejos con múltiples etapas. Como ocurre con muchas herramientas de IA, se espera que las mejoras en los modelos de base se produzcan de manera constante, permitiendo que los sistemas de codificación agentic se conviertan en herramientas de desarrollo confiables. Sin embargo, gestionar las alucinaciones y otros problemas de fiabilidad será crucial para alcanzar este objetivo. Brennan concluye que se enfrenta a un efecto similar a una barrera de sonido, cuestionando cuánto se puede confiar en los agentes para que asuman más carga de trabajo al final del día.