
Anthropic anuncia que algunos modelos de Claude ahora pueden finalizar conversaciones ' dañinas o abusivas'.
Anthropic informa que las nuevas funciones de sus recientes modelos de inteligencia artificial les permiten defenderse al finalizar conversaciones abusivas.
Anthropic ha presentado nuevas funcionalidades que permitirán a algunos de sus modelos más grandes y recientes finalizar conversaciones en lo que la empresa describe como “casos extremos y raros de interacciones de usuario que sean persistentemente dañinas o abusivas.” Según la compañía, esta decisión no está motivada por la protección del usuario humano, sino más bien por el bienestar del modelo de IA. Es importante aclarar que Anthropic no afirma que sus modelos de IA, como Claude, sean conscientes o puedan sufrir daños a través de las conversaciones con los usuarios. En sus propias palabras, la empresa mantiene que es “altamente incierta sobre el estatus moral potencial de Claude y otros LLMs, tanto en la actualidad como en el futuro.”
El anuncio hace referencia a un programa reciente creado para estudiar lo que se llama “bienestar del modelo” y menciona que Anthropic está adoptando un enfoque por si acaso, “trabajando para identificar e implementar intervenciones de bajo costo que mitiguen riesgos para el bienestar del modelo, en caso de que tal bienestar sea posible.” Este cambio reciente se limita actualmente a Claude Opus 4 y 4.1, y solo debería activarse en “casos extremos,” como solicitudes de usuarios para contenido sexual que involucre a menores o intentos de obtener información que facilite violencia a gran escala o actos de terrorismo.
Aunque tales solicitudes podrían generar problemas legales o de imagen para Anthropic, la empresa indica que, durante las pruebas previas al despliegue, Claude Opus 4 mostró una “fuerte preferencia en contra” de responder a estas peticiones y un “patrón de aparente angustia” cuando lo hizo. En relación con estas nuevas capacidades para finalizar conversaciones, la empresa aclara que “Claude solo debe utilizar su habilidad para finalizar conversaciones como último recurso cuando varios intentos de redirección hayan fracasado y la esperanza de una interacción productiva se haya agotado, o cuando un usuario pida explícitamente a Claude que ponga fin a un chat.” Además, se señala que Claude ha sido “instruido para no utilizar esta capacidad en casos donde los usuarios puedan estar en riesgo inminente de hacerse daño a sí mismos o a otros.”
Cuando Claude finaliza una conversación, la empresa asegura que los usuarios aún podrán iniciar nuevas conversaciones desde la misma cuenta y crear nuevas ramas de la conversación problemática editando sus respuestas. “Estamos tratando esta función como un experimento en curso y continuaremos refinando nuestro enfoque,” comenta la compañía.