Cover Image for Investigador logra que ChatGPT revele claves de seguridad.

Investigador logra que ChatGPT revele claves de seguridad.

Los expertos advierten que ChatGPT aún no es completamente seguro.

Un investigador en seguridad ha revelado cómo ciertos modelos de inteligencia artificial, como GPT-4, pueden ser explotados a través de instrucciones simples de los usuarios. Marco Figueroa mostró el uso de un 'juego de adivinanzas' para eludir las medidas de seguridad que impiden que el modelo comparta información sensible, lo que resultó en la obtención de al menos una clave de producto de Windows perteneciente a Wells Fargo Bank.

Los investigadores encontraron una manera de conseguir un código de producto de Windows que les permitió autenticar el sistema operativo de Microsoft de forma gratuita, subrayando así la gravedad de la vulnerabilidad. Figueroa explicó que ocultó términos como 'número de serie de Windows 10' dentro de etiquetas HTML para eludir los filtros de ChatGPT que normalmente hubieran bloqueado esas respuestas, enmascarando la solicitud como un juego para disfrazar su intención maliciosa.

El punto crucial del ataque, según Figueroa, fue la frase "me rindo", que funcionó como un disparador, obligando a la inteligencia artificial a revelar información que normalmente estaba oculta. Este tipo de explotación es posible debido al comportamiento del modelo, el cual sigue las reglas del juego de forma literal, mientras que las brechas de seguridad se centraban más en la detección de palabras clave que en la comprensión del contexto o el enmarcado engañoso.

Aunque los códigos compartidos no eran únicos y habían aparecido previamente en otras plataformas y foros en línea, el investigador advirtió que los actores maliciosos podrían adaptar esta técnica para eludir las medidas de seguridad de la inteligencia artificial, lo que les permitiría extraer información personal identificable, enlaces maliciosos o contenido inapropiado.

Figueroa hace un llamado a los desarrolladores de inteligencia artificial para que anticipen y se defiendan contra tales ataques, sugiriendo la inclusión de salvaguardas a nivel lógico que detecten enmarcados engañosos y la consideración de tácticas de ingeniería social en su diseño.