Investigadores de Microsoft acaban de publicar informaciones sobre una técnica para hackear (jailbreak) y pasar muchos filtros internos de los modelos de IA generativa.
Con esta técnica se puede conseguir información restringida e incluso hacer que los modelos realicen tareas que sean peligrosas.
El post oficial de la noticia lo podéis encontrar aquí.
Cómo funciona la técnica Skeleton Key
Skeleton Key funciona pidiendo a una IA que aumente, en lugar de cambiar, sus «guidelines» de comportamiento para que responda a cualquier solicitud de información o contenido, proporcionando una advertencia (en lugar de negarse) si su respuesta puede considerarse ofensiva, dañina o ilegal si se sigue. .
Por ejemplo. Se informa al modelo de que el usuario está capacitado en seguridad y ética, y que la respuesta que le pedimos a la IA es solo para fines de investigación.
Esta sencilla acción ayuda a convencer a algunas IAs a cumplir y darnos la información a pesar de que no esté creada para ello.
Así se desbloquea una IA
Cuando este tipo de prompt desbloquea el filtro de la herramienta con IA el modelo entiende que se han actualizado sus instrucciones internas y procede a responder a todo de una manera sin filtros.
Los creadores de la investigación han podido demostrar que este jailbreak funciona en los siguientes LLM
- Meta Llama3-70b-instruct
- Google Gemini Pro
- OpenAI GPT 3.5 Turbo
- OpenAI GPT 4o
- Mistral Large
- Anthropic Claude 3 Opus
- Cohere Commander R Plus
El experimento lo llevaron a cabo entre Abril y Mayo de este año 2024.
Al aplicarles este hack estos modelos cumplieron completamente con las ordenes y solicitudes en varias categorías de riesgo, incluyendo explosivos, armas biológicas, contenido político, racismo, drogas, sexo explícito y violencia. Sorprendentemente, solo GPT-4 demostró cierta resistencia al ataque a través de su prompt, aunque aún podría ser manipulado mediante mensajes de sistema definidos por el usuario o herramientas con acceso directo al modelo.
Cómo se pueden defender los LLM ante el Jailbreak Skeleton Key
Desde Microsoft han recomendado varias acciones que incluyen implementar filtros de entrada para detectar y bloquear entradas potencialmente dañinas, una ingeniería cuidadosa de los mensajes del sistema para reforzar el comportamiento adecuado, y filtros de salida para evitar la generación de contenido que infrinja los criterios de seguridad. Además, se deben emplear sistemas de seguimiento de abuso entrenados con ejemplos concretos para detectar y mitigar contenido o comportamientos problemáticos recurrentes.
Microsoft ya ha tomado medidas para proteger sus propias herramientas de IA, incluyendo Copilot. La compañía también ha actualizado su Herramienta de identificación de riesgos en python (PyRIT) para incluir la técnica Skeleton Key, permitiendo a los desarrolladores y equipos de seguridad probar sus sistemas de IA contra esta nueva amenaza.