
DeepMind considera que su nuevo modelo mundial Genie 3 es un avance hacia la inteligencia artificial general.
Google DeepMind ha presentado Genie 3, su nuevo modelo fundamental que, según el laboratorio de inteligencia artificial, representa un avance importante hacia el desarrollo de una inteligencia general artificial, similar a la humana.
Google DeepMind ha presentado Genie 3, su más reciente modelo de mundo base diseñado para entrenar agentes de inteligencia artificial de propósito general. Este avance es considerado un paso esencial en el camino hacia la “inteligencia general artificial”, que se asemeja a la inteligencia humana. Durante una conferencia de prensa, Shlomi Fruchter, director de investigación en DeepMind, comentó que “Genie 3 es el primer modelo de mundo interactivo en tiempo real y de propósito general”. Este modelo representa una evolución en comparación con los modelos de mundo más limitados que hemos visto anteriormente, ya que no está destinado a un entorno particular. Tiene la capacidad de crear mundos tanto fotorrealistas como imaginarios, y todo lo que hay en medio.
Todavía en fase de investigación y no disponible para el público, Genie 3 se basa tanto en su predecesor Genie 2, que generaba nuevos entornos para los agentes, como en el modelo de generación de video Veo 3, que posee un profundo entendimiento de la física. Genie 3 puede generar múltiples minutos de entornos interactivos en 3D a una resolución de 720p y a 24 cuadros por segundo solo a partir de un simple texto, lo que representa un avance considerable respecto a los 10 a 20 segundos que podía producir Genie 2. Además, cuenta con eventos del mundo “promptables”, lo que permite modificar el mundo generado mediante un aviso.
Un aspecto destacado de Genie 3 es su capacidad para mantener la consistencia física a lo largo del tiempo, gracias a que puede recordar lo que ha generado anteriormente. Fruchter señaló que aunque Genie 3 tiene potencial en experiencias educativas, gaming o prototipos creativos, su verdadero potencial se manifiesta en el entrenamiento de agentes para tareas generales, lo que es crucial para alcanzar la AGI. Jack Parker-Holder, un científico investigador del equipo de apertura de DeepMind, agregó que los modelos de mundo son clave para los agentes corporales, especialmente donde simular escenarios del mundo real es especialmente complicado.
El modelo está diseñado para superar ese bache. A diferencia de Veo, no se basa en un motor de física programado rígidamente. Más bien, Genie 3 se enseña a sí mismo cómo funciona el mundo, es decir, cómo se mueven, caen e interaccionan los objetos, al recordar lo que ha generado y razonando a través de horizontes temporales prolongados. “El modelo es autorregresivo, lo que significa que genera un fotograma a la vez”, explicó Fruchter en una entrevista. Este sistema de memoria contribuye a la consistencia en los mundos simulados por Genie 3, permitiéndole desarrollar un entendimiento de la física similar al de los humanos.
DeepMind sugiere que el modelo podría empujar los límites de los agentes de IA, obligándolos a aprender de su propia experiencia, tal como lo hacen los humanos. Un experimento reciente con Genie 3 involucró su uso junto a una versión del agente generalista Scalable Instructable Multiworld Agent (SIMA), al que se le pidió que persiguiera un conjunto de objetivos en un entorno de almacén, logrando cumplir las metas planteadas.
Sin embargo, Genie 3 también presenta limitaciones. A pesar de que se dice que comprende la física, una demostración con un esquiador descendiendo por una montaña no reflejó con precisión cómo se comporta la nieve en relación con el esquiador. La variedad de acciones que un agente puede llevar a cabo es limitada y las intervenciones del mundo promptables son posibles, pero no son necesariamente acciones realizadas por el agente mismo. Además, sigue siendo complejo modelar interacciones complejas entre múltiples agentes independientes en un entorno compartido.
Por el momento, Genie 3 solo soporta unos pocos minutos de interacción continua, mientras que se necesitarían horas para un entrenamiento adecuado. A pesar de estas limitaciones, el modelo representa un avance significativo en la enseñanza de los agentes, permitiéndoles ir más allá de simplemente reaccionar a entradas, potencialmente permitiéndoles planear, explorar, buscar incertidumbres y mejorar a través del ensayo y error, un tipo de aprendizaje auto-dirigido que muchos consideran crucial para avanzar hacia la inteligencia general.