
Modelo de inteligencia artificial optimizado de Google DeepMind opera directamente en robots.
No se requiere conexión a internet.
Google DeepMind ha presentado una versión de su modelo de inteligencia artificial Gemini Robotics, capaz de funcionar sin necesidad de conexión a internet. Este modelo, que combina visión, lenguaje y acción (VLA), cuenta con habilidades avanzadas similares a las de la versión lanzada en marzo, pero destaca por ser lo suficientemente compacto y eficiente para operar directamente en un robot.
El modelo estrella de Gemini Robotics está diseñado para ayudar a los robots a realizar diversas tareas físicas, incluso aquellas para las que no han sido entrenados de manera específica. Este avance permite a los robots adaptarse a nuevas situaciones, así como comprender y reaccionar ante comandos, además de ejecutar tareas que requieren destreza manual.
Carolina Parada, responsable de robótica en Google DeepMind, explicó que el modelo original de Gemini Robotics sigue un enfoque híbrido, lo que le permite funcionar tanto en dispositivos locales como en la nube. Sin embargo, con esta nueva versión de solo dispositivo, los usuarios podrán disfrutar de características offline que son casi equivalentes a las del modelo principal.
Este modelo on-device es capaz de realizar diversas tareas desde el inicio y puede ajustarse a nuevas situaciones con un mínimo de 50 a 100 demostraciones. Aunque Google lo entrenó inicialmente en su robot ALOHA, la compañía ha logrado adaptarlo a diferentes tipos de robots, incluyendo el robot humanoide Apollo de Apptronik y el robot bi-brazo Franka FR3.
Parada comentó que, aunque el modelo híbrido de Gemini Robotics sigue siendo más potente, se mostró gratamente sorprendida por la efectividad del modelo on-device. Sostuvo que podría considerarse como un modelo de iniciación o para aplicaciones que operan con conectividad limitada. Además, sería útil para empresas con severos requisitos de seguridad.
En paralelo a este lanzamiento, Google también ha publicado un kit de desarrollo de software (SDK) para el modelo de dispositivo, lo que permitirá a los desarrolladores evaluar y ajustarlo; esta es la primera vez que uno de los modelos VLA de Google DeepMind cuenta con esta herramienta. El modelo Gemini Robotics on-device y su SDK estarán disponibles inicialmente para un grupo selecto de probadores de confianza, mientras Google trabaja en la reducción de riesgos de seguridad.