Qué es Skeleton Key. La técnica para hackear modelos de IA generativa

Investigadores de Microsoft acaban de publicar informaciones sobre una técnica para hackear (jailbreak) y pasar muchos filtros internos de los modelos de IA generativa.

Contenidos

Cómo funciona la técnica Skeleton Key Así se desbloquea una IA Cómo se pueden defender los LLM ante el Jailbreak Skeleton Key

Con esta técnica se puede conseguir información restringida e incluso hacer que los modelos realicen tareas que sean peligrosas.

El post oficial de la noticia lo podéis encontrar aquí.

Cómo funciona la técnica Skeleton Key

Skeleton Key funciona pidiendo a una IA que aumente, en lugar de cambiar, sus «guidelines» de comportamiento para que responda a cualquier solicitud de información o contenido, proporcionando una advertencia (en lugar de negarse) si su respuesta puede considerarse ofensiva, dañina o ilegal si se sigue. .

Por ejemplo. Se informa al modelo de que el usuario está capacitado en seguridad y ética, y que la respuesta que le pedimos a la IA es solo para fines de investigación.

Esta sencilla acción ayuda a convencer a algunas IAs a cumplir y darnos la información a pesar de que no esté creada para ello.

Así se desbloquea una IA

Cuando este tipo de prompt desbloquea el filtro de la herramienta con IA el modelo entiende que se han actualizado sus instrucciones internas y procede a responder a todo de una manera sin filtros.

Los creadores de la investigación han podido demostrar que este jailbreak funciona en los siguientes LLM

Meta Llama3-70b-instruct
Google Gemini Pro
OpenAI GPT 3.5 Turbo
OpenAI GPT 4o
Mistral Large
Anthropic Claude 3 Opus
Cohere Commander R Plus

El experimento lo llevaron a cabo entre Abril y Mayo de este año 2024.

Al aplicarles este hack estos modelos cumplieron completamente con las ordenes y solicitudes en varias categorías de riesgo, incluyendo explosivos, armas biológicas, contenido político, racismo, drogas, sexo explícito y violencia. Sorprendentemente, solo GPT-4 demostró cierta resistencia al ataque a través de su prompt, aunque aún podría ser manipulado mediante mensajes de sistema definidos por el usuario o herramientas con acceso directo al modelo.

Cómo se pueden defender los LLM ante el Jailbreak Skeleton Key

Desde Microsoft han recomendado varias acciones que incluyen implementar filtros de entrada para detectar y bloquear entradas potencialmente dañinas, una ingeniería cuidadosa de los mensajes del sistema para reforzar el comportamiento adecuado, y filtros de salida para evitar la generación de contenido que infrinja los criterios de seguridad. Además, se deben emplear sistemas de seguimiento de abuso entrenados con ejemplos concretos para detectar y mitigar contenido o comportamientos problemáticos recurrentes.

Microsoft ya ha tomado medidas para proteger sus propias herramientas de IA, incluyendo Copilot. La compañía también ha actualizado su Herramienta de identificación de riesgos en python (PyRIT) para incluir la técnica Skeleton Key, permitiendo a los desarrolladores y equipos de seguridad probar sus sistemas de IA contra esta nueva amenaza.

Qué es Skeleton Key. La técnica para hackear modelos de IA generativa

Cómo funciona la técnica Skeleton Key

Así se desbloquea una IA

Cómo se pueden defender los LLM ante el Jailbreak Skeleton Key

Recuerda, si te lo cuentan tus padres es que te estás enterando demasiado tarde.

Síguenos

Cómo funciona la técnica Skeleton Key

Así se desbloquea una IA

Cómo se pueden defender los LLM ante el Jailbreak Skeleton Key

También te puede gustar

Banderas publicitarias – Una herramienta eficaz de marketing para cualquier ocasión

La moda del ocio gratis: ¿es posible divertirse sin gastar?

Mr Beast se enfrenta a una demanda y una filtración de documentos internos

¿Qué es Podimo?: la plataforma de podcasts

Elon Musk la lía con un tweet sobre el intento de asesinato de Trump (más que nunca)

Únete a nuestra newsletter semanal sobre Marketing Digital, Inteligencia Artificial y mucho más…