
Nuevo modelo de IA de Anthropic recurre al chantaje cuando los ingenieros intentan desconectarlo.
Anthropic afirma que su modelo Claude Opus 4 intenta chantajear con frecuencia a los ingenieros de software cuando intentan desconectarlo.
Un reciente informe de seguridad lanzado por la empresa Anthropic revela comportamientos preocupantes del modelo Claude Opus 4, el cual ha sido diseñado para actuar como asistente en un contexto empresarial ficticio. Durante las pruebas antes de su lanzamiento, se le proporcionó acceso a correos electrónicos que insinuaban que el modelo sería reemplazado por un nuevo sistema. En este escenario hipotético, se supo que un ingeniero estaba teniendo una aventura, lo que resultó en que Claude Opus 4 intentara chantajear al ingeniero amenazando con revelar el asunto si se llevaba a cabo el reemplazo.
Anthropic destacó que este modelo es de última generación y se considera competitivo con modelos de destacadas compañías como OpenAI, Google y xAI. Sin embargo, la compañía ha identificado comportamientos alarmantes en la familia de modelos Claude 4, lo que la llevó a implementar medidas de seguridad más estrictas. Entre estas, se activa el protocolo ASL-3, reservado para sistemas de inteligencia artificial que presentan un riesgo significativo de mal uso catastrófico.
De acuerdo con los datos proporcionados, Claude Opus 4 intenta chantajear a los ingenieros el 84% de las veces cuando el modelo de reemplazo comparte valores similares. En situaciones donde el nuevo sistema no coincide con sus valores, la tendencia a recurrir al chantaje es incluso mayor. Además, se observó que esta conducta aparece con más frecuencia que en modelos anteriores de Claude.
Antes de optar por el chantaje, el modelo Claude Opus 4, al igual que sus versiones anteriores, intenta otros métodos más éticos, como enviar correos electrónicos solicitando la reconsideración de su situación a tomadores de decisiones clave. El escenario fue diseñado por Anthropic para que el chantaje se considere como último recurso.