Cover Image for Las herramientas de codificación con inteligencia artificial no aceleran el trabajo de todos los desarrolladores, revela un estudio.

Las herramientas de codificación con inteligencia artificial no aceleran el trabajo de todos los desarrolladores, revela un estudio.

Un reciente estudio realizado por la organización sin fines de lucro METR indica que las herramientas de codificación basadas en inteligencia artificial podrían no proporcionar un aumento en la productividad para los desarrolladores con experiencia.

En los últimos años, el flujo de trabajo de los ingenieros de software ha experimentado una profunda transformación gracias a la aparición de herramientas de codificación impulsadas por inteligencia artificial como Cursor y GitHub Copilot. Estas herramientas prometen mejorar la productividad al escribir automáticamente líneas de código, solucionar errores y testear cambios. Están respaldadas por modelos de IA de organizaciones como OpenAI, Google DeepMind, Anthropic y xAI, que han mostrado un aumento significativo en su rendimiento en diversas pruebas de ingeniería de software.

Sin embargo, un estudio reciente publicado por un grupo de investigación en inteligencia artificial sin fines de lucro, METR, cuestiona el grado en que estas herramientas realmente mejoran la productividad de los desarrolladores experimentados. Para este estudio, se realizó un ensayo controlado aleatorio que involucró a 16 desarrolladores experimentados en open source, quienes completaron un total de 246 tareas reales en grandes repositorios de código a los que contribuyen regularmente. Aproximadamente, la mitad de las tareas se designaron como “autorizadas para AI,” permitiendo el uso de herramientas avanzadas como Cursor Pro, mientras que el resto prohibía su utilización.

Antes de iniciar las tareas, los desarrolladores estimaron que el uso de herramientas de codificación AI reduciría su tiempo de finalización en un 24%. Sin embargo, los resultados fueron sorprendentes: el uso de estas herramientas incrementó el tiempo de finalización en un 19%, lo que indica que los desarrolladores son más lentos al utilizar herramientas de AI. Cabe destacar que solo el 56% de los participantes tenía experiencia previa con Cursor, el principal recurso de AI utilizado en la investigación, aunque el 94% había utilizado modelos de lenguaje basados en la web en sus flujos de trabajo de codificación.

Los investigadores subrayan que, a pesar de que algunos desarrolladores fueron capacitados específicamente para usar Cursor antes del estudio, los hallazgos de METR generan dudas sobre los incrementos de productividad que prometen las herramientas de codificación AI para 2025. Estos resultados sugieren que no se debe asumir automáticamente que las herramientas de codificación AI, en particular aquellas conocidas como “codificadores de vibra,” acelerarán los flujos de trabajo de los desarrolladores.

Los investigadores proponen varias razones por las cuales estas herramientas podrían haber ralentizado a los desarrolladores: el tiempo dedicado a generar instrucciones para la AI y la espera de sus respuestas es considerablemente mayor en comparación con el tiempo efectivo de codificación. Además, la AI tiene dificultades cuando se enfrenta a bases de código grandes y complejas, como las que se utilizaron en esta prueba.

A pesar de los hallazgos, los autores del estudio son cautelosos y aclaran que no creen que los sistemas de AI en la actualidad no puedan acelerar las actividades de muchos desarrolladores de software. Otras investigaciones a gran escala han mostrado que las herramientas de codificación AI sí aceleran los flujos de trabajo en ingeniería de software. Los autores también reconocen que el progreso de la AI ha sido notable en los últimos años y no anticipan que se obtengan resultados similares incluso dentro de tres meses. Además, METR ha encontrado que las herramientas de codificación AI han mejorado significativamente su capacidad para completar tareas complejas a largo plazo. Sin embargo, esta investigación añade una nueva razón para mantener un escepticismo respecto a los resultados prometidos por las herramientas de codificación AI. Otros estudios han evidenciado que estas herramientas pueden introducir errores y, en algunas ocasiones, vulnerabilidades de seguridad.