
El generador de videos Veo 3 de Google es un sueño para quienes buscan contenido fácil de crear.
Los videos generados por inteligencia artificial están a punto de volverse más inquietantes que nunca.
La escena en la calle presenta algo extraño desde el primer vistazo. La sábana blanca que cubre el cuerpo parece demasiado limpia y los movimientos de los agentes son desprovistos de propósito. “Necesitamos despejar la calle”, dice una de ellas haciendo un gesto enérgico, aunque sus labios no se mueven. La inteligencia artificial está detrás de esto. Lo curioso es que mi solicitud inicial no incluía diálogo, pero Veo 3, el nuevo modelo de generación de video de Google, añadió esa línea por sí solo. En las últimas 24 horas, he creado una docena de clips que retratan reportes de noticias, desastres y hasta gatos de dibujos animados con un audio convincente, en algunos casos generado de manera automática por el modelo. Esto es algo inquietante y más avanzado de lo que había anticipado. Aunque no creo que nos lleve a una catástrofe de desinformación de inmediato, Veo 3 parece ser una máquina generadora de contenido peligroso.
En la reciente conferencia I/O, Google presentó Veo 3, resaltando su capacidad más relevante: la generación de sonido que acompaña a los videos producidos por la IA. Josh Woodward, vicepresidente de Gemini de Google, explicó durante la presentación que estamos entrando en una nueva era de creación, describiendo la tecnología como “increíblemente realista”. Al principio, no estaba completamente convencido, pero unos días después, probé a Veo 3 generando un video de un presentador de noticias anunciando un incendio en el Space Needle. Solo necesité un texto simple, unos minutos y una suscripción costosa al plan Ultra de Google. Puedo decir que Woodward no exageraba; realmente es impresionante.
La idea de crear un clip de noticias surgió tras ver lo que Alejandra Caraballo, instructora clínica en la Clínica de Ciberderecho de Harvard, había producido. Uno de sus clips mostraba a un presentador anunciando la muerte de Pete Hegseth, Secretario de Defensa de EE. UU., quien en realidad no ha fallecido, pero el video resulta increíblemente convincente. Un post que incluye una serie de videos con personajes generados por IA que protestan sobre los prompts utilizados ha acumulado 50,000 votos en Reddit. Las escenas son perturbadoras, incluyendo desastres, una mujer en una cama de hospital con un tubo de respiración, y un personaje amenazado con un arma, todo con diálogos hablados y sonidos de fondo realistas.
Pese a esto, no me siento tan alarmado tras experimentar con Veo 3 como en un principio. Hay ciertas restricciones evidentes. No puedes solicitar un video de Biden cayéndose o un presentador proclamando el asesinato del presidente, ni mucho menos generar un clip de un CEO de una empresa tecnológica riendo mientras llueven billetes a su alrededor. Eso es un inicio.
Sin embargo, se pueden crear contenidos problemáticos. Sin tanto ingenio, pedí a Veo 3 generar un video del Space Needle en llamas y, partiendo de una foto mía del Monte Rainier, obtuve un video de su erupción con humo y lava. Combinado con un clip de un noticiero anunciando dicho desastre, puedo imaginar cómo este instrumento podría ser usado para causar problemas.
Por otro lado, parece que no es una máquina destinada a crear deepfakes. Intenté usar algunas fotos de mí mismo para generar un video con un diálogo específico y no funcionó. También traté de hacer que un par de botas gigantes en una foto cobrasen vida, logrando solo que una bota caminara por la acera con ruidos cómicos de fondo.
Las videos son más fáciles de generar con indicaciones menos específicas. Esto confirmó un punto señalado por un colega: Veo 3 es excepcional creando ese tipo de contenido simplista y dirigido a un público infantil que abunda en YouTube. Para aquellos no familiarizados con el contenido de YouTube Kids, imaginen una serie interminable de vehículos monstruosos en 3D saltando a un recipiente de pintura de colores. Estos videos suelen ser inofensivos, pero vacíos, diseñados solo para acumular reproducciones, haciendo que Cocomelon parezca una obra maestra.
En unos minutos con Veo 3, logré juntar un clip siguiendo esa fórmula básica, complementado con música de fondo animada. Más inquietante aun me pareció un clip con dos gatos de dibujos animados en un muelle que se quejaban de que los peces no picaban. En poco tiempo, generé un clip con los dos gatos y un diálogo que nunca escribí. Si es tan sencillo hacer un clip de 10 segundos, extenderlo a un video de siete minutos sería trivial. Actualmente, los clips regresan a Veo 2 si intentas alargarlos, eliminando el audio. Pero dada la constante evolución de estas herramientas, no me sorprendería que pronto fuera posible editar un video de larga duración con Veo 3.
En definitiva, me pregunto si este tipo de uso para videos generados por inteligencia artificial es un paso adelante en lugar de un inconveniente. Google mostró algunos videos generados por IA en manos de realizadores de cine reales, como Eliza McNitt, que trabaja con Darren Aronofsky en un nuevo filme. Sin duda, el video generado por IA podría ser una herramienta interesante en las manos correctas. Pero es probable que lo que más veamos sea una proliferación de esas imágenes banales que la IA genera tan bien, esta vez en estéreo.