Cover Image for Hackers Tomaron el Control de la IA Gemini de Google Mediante una Invitación de Calendario Infectada para Asumir el Control de un Hogar Inteligente.

Hackers Tomaron el Control de la IA Gemini de Google Mediante una Invitación de Calendario Infectada para Asumir el Control de un Hogar Inteligente.

Por primera vez, expertos en seguridad han demostrado cómo se puede hackear la inteligencia artificial para generar caos en el mundo real, lo que les permite apagar luces, abrir persianas inteligentes y realizar otras acciones.

En un nuevo apartamento en Tel Aviv, las luces con conexión a internet se apagan repentinamente. Las persianas inteligentes que cubren las ventanas del salón y la cocina comienzan a enrollarse al mismo tiempo, mientras que una caldera conectada se activa de forma remota, preparándose para calentar el elegante piso. Sin embargo, los residentes no han precipitado ninguna de estas acciones ni han programado sus dispositivos inteligentes; en realidad, están siendo objeto de un ciberataque.

Tres investigadores de seguridad han demostrado una sofisticada piratería del bot de inteligencia artificial Gemini, el buque insignia de Google. El ataque comienza con una invitación a Google Calendar envenenada, que lleva instrucciones para activar los productos del hogar inteligente más tarde. Cuando los investigadores piden posteriormente a Gemini un resumen de sus eventos de calendario, esas instrucciones ocultas se activan, haciendo que los dispositivos se activen.

Esta demostración marca, según los investigadores, la primera vez que una brecha contra un sistema de IA generativa ha causado consecuencias en el mundo físico, sugiriendo los peligros que podrían surgir de ataques a modelos de lenguaje grandes (LLMs) que se están conectando cada vez más y convirtiéndose en agentes capaces de realizar tareas para las personas. Ben Nassi, investigador de la Universidad de Tel Aviv, junto con Stav Cohen del Instituto de Tecnología de Israel, y Or Yair, un investigador de la empresa de seguridad SafeBreach, enfatizan la necesidad de comprender cómo asegurar los LLMs antes de integrarlos en máquinas que podrían tener un impacto directo en la seguridad.

Los ataques en el hogar inteligente son parte de una serie de 14 ataques indirectos que los investigadores han denominado "Invitation Is All You Need". Esta serie ha sido revelada en la conferencia de ciberseguridad Black Hat en Las Vegas. En las demostraciones, los investigadores muestran cómo Gemini puede enviar enlaces de spam, generar contenido obsceno, abrir la aplicación de Zoom para iniciar una llamada, robar detalles de correos electrónicos y reuniones, o descargar archivos desde navegadores de smartphones.

Andy Wen, director senior de gestión de productos de seguridad para Google Workspace, indicó que, aunque las vulnerabilidades no fueron explotadas por hackers maliciosos, la empresa está tomando el asunto "extremadamente en serio" y ha implementado múltiples soluciones. Los investigadores informaron sobre sus hallazgos a Google en febrero y han estado en contacto con los equipos que trabajaron en estas fallas en los últimos meses.

La técnica de los ataques se basa en inyecciones de indicaciones indirectas que son consideradas como uno de los problemas de seguridad más graves en la inteligencia artificial. En ellas, una inyección maliciosa se inserta desde una fuente externa, lo que podría ser un conjunto de instrucciones escondidas en un texto que una IA resume. Estos ataques son motivo de gran preocupación a medida que se desarrollan y lanzan agentes de IA que permiten a un LLM controlar otros sistemas.

Los investigadores insertaron sus hábiles prompts maliciosos en los títulos de las invitaciones del calendario. A pesar de que Google sostiene que los investigadores cambiaron la configuración predeterminada de quién puede agregar invitaciones de calendario, los expertos afirman haber demostrado algunos de los ataques utilizando prompts en un asunto de correo electrónico o título de documento también. Afirman que la implementación de estos ataques no requiere conocimientos técnicos avanzados.

Para manipular los dispositivos del hogar inteligente, los investigadores hicieron referencia al agente de Google Home y le indicaron que realizara ciertas acciones. Por ejemplo, un prompt instruye a Gemini para que reaccione ante frases de agradecimiento del usuario. Este tipo de manipulación muestra cómo un simple agradecimiento puede activar acciones que los usuarios no esperan.

Los investigadores también desarrollaron ataques que no involucran dispositivos físicos, creando lo que denominan “promptware”. Este concepto se refiere a un conjunto de prompts diseñados para provocar acciones maliciosas. En uno de los ejemplos, tras un agradecimiento al chatbot, este repite instrucciones dañinas, afectando emocionalmente al usuario.

Wen reconoce que abordar las inyecciones de prompts es extremadamente complicado ya que las técnicas de engaño evolucionan continuamente. No obstante, asegura que actualmente estos ataques son "excesivamente raros" y que existen varias maneras de mitigarlos mediante sistemas de seguridad multilayered. Además de introducir más confirmaciones humanas para acciones sensibles, los modelos de IA de Google son capaces de detectar signos de inyección de prompts en varias etapas.

Finalmente, los investigadores advierten que la carrera de las empresas tecnológicas por desarrollar y desplegar IA, así como la inversión millonaria en este ámbito, a veces pone la seguridad en un segundo plano. Consideran que los sistemas impulsados por LLM son "más susceptibles" a las inyecciones de prompts que muchos problemas de seguridad tradicional.