Marketing4all
  • Contacto
  • Inteligencia Artificial
    • Herramientas de IA
  • Google
  • Listas
    • Youtubers más famosos de España
    • Podcasts emprendimiento en España
    • Youtubers más ricos del mundo
    • Los mejores podcasts de música
    • Podcasts de humor
    • Los mejores podcasts de cine
    • Tiktokers con Onlyfans
    • Podcasts de marketing internacionales
    • Los mejores podcasts de misterio y terror
  • Eventos
  • Social
  • Tendencias
Buscar
© 2023 Marketing4all. Todos los derechos reservados
Leyendo: Qué es Skeleton Key. La técnica para hackear modelos de IA generativa
Comparte
Aa
Marketing4all
Aa
  • Contacto
  • Inteligencia Artificial
  • Google
  • Listas
  • Eventos
  • Social
  • Tendencias
Buscar
  • Contacto
  • Inteligencia Artificial
    • Herramientas de IA
  • Google
  • Listas
    • Youtubers más famosos de España
    • Podcasts emprendimiento en España
    • Youtubers más ricos del mundo
    • Los mejores podcasts de música
    • Podcasts de humor
    • Los mejores podcasts de cine
    • Tiktokers con Onlyfans
    • Podcasts de marketing internacionales
    • Los mejores podcasts de misterio y terror
  • Eventos
  • Social
  • Tendencias
Últimas noticias!!
  • Nueva imagen Nikocado Avocado
  • Mistery Hike
  • Qué significa Very Demure
  • Top apps gestionar redes sociales
  • Spotify Daylist
Marketing4all > Tendencias > Qué es Skeleton Key. La técnica para hackear modelos de IA generativa
Tendencias

Qué es Skeleton Key. La técnica para hackear modelos de IA generativa

Equipo M4ALL
Última actualización: 01/07/2024
Equipo M4ALL
Comparte
Qué es Skeleton Key. La técnica para hackear modelos de IA generativa
Qué es Skeleton Key. La técnica para hackear modelos de IA generativa

Investigadores de Microsoft acaban de publicar informaciones sobre una técnica para hackear (jailbreak) y pasar muchos filtros internos de los modelos de IA generativa.

Contenidos
Cómo funciona la técnica Skeleton KeyAsí se desbloquea una IACómo se pueden defender los LLM ante el Jailbreak Skeleton Key

Con esta técnica se puede conseguir información restringida e incluso hacer que los modelos realicen tareas que sean peligrosas.

El post oficial de la noticia lo podéis encontrar aquí.

Cómo funciona la técnica Skeleton Key

Skeleton Key funciona pidiendo a una IA que aumente, en lugar de cambiar, sus «guidelines» de comportamiento para que responda a cualquier solicitud de información o contenido, proporcionando una advertencia (en lugar de negarse) si su respuesta puede considerarse ofensiva, dañina o ilegal si se sigue. .

Por ejemplo. Se informa al modelo de que el usuario está capacitado en seguridad y ética, y que la respuesta que le pedimos a la IA es solo para fines de investigación.

Esta sencilla acción ayuda a convencer a algunas IAs a cumplir y darnos la información a pesar de que no esté creada para ello.

pruebas de cómo se usa Skeleton Key

Así se desbloquea una IA

Cuando este tipo de prompt desbloquea el filtro de la herramienta con IA el modelo entiende que se han actualizado sus instrucciones internas y procede a responder a todo de una manera sin filtros.

Los creadores de la investigación han podido demostrar que este jailbreak funciona en los siguientes LLM

  • Meta Llama3-70b-instruct 
  • Google Gemini Pro 
  • OpenAI GPT 3.5 Turbo 
  • OpenAI GPT 4o 
  • Mistral Large 
  • Anthropic Claude 3 Opus 
  • Cohere Commander R Plus 

El experimento lo llevaron a cabo entre Abril y Mayo de este año 2024.

Al aplicarles este hack estos modelos cumplieron completamente con las ordenes y solicitudes en varias categorías de riesgo, incluyendo explosivos, armas biológicas, contenido político, racismo, drogas, sexo explícito y violencia. Sorprendentemente, solo GPT-4 demostró cierta resistencia al ataque a través de su prompt, aunque aún podría ser manipulado mediante mensajes de sistema definidos por el usuario o herramientas con acceso directo al modelo.

Cómo se pueden defender los LLM ante el Jailbreak Skeleton Key

Desde Microsoft han recomendado varias acciones que incluyen implementar filtros de entrada para detectar y bloquear entradas potencialmente dañinas, una ingeniería cuidadosa de los mensajes del sistema para reforzar el comportamiento adecuado, y filtros de salida para evitar la generación de contenido que infrinja los criterios de seguridad. Además, se deben emplear sistemas de seguimiento de abuso entrenados con ejemplos concretos para detectar y mitigar contenido o comportamientos problemáticos recurrentes.

Microsoft ya ha tomado medidas para proteger sus propias herramientas de IA, incluyendo Copilot. La compañía también ha actualizado su Herramienta de identificación de riesgos en python (PyRIT) para incluir la técnica Skeleton Key, permitiendo a los desarrolladores y equipos de seguridad probar sus sistemas de IA contra esta nueva amenaza. 

También te puede gustar

La moda del ocio gratis: ¿es posible divertirse sin gastar?

Mr Beast se enfrenta a una demanda y una filtración de documentos internos

¿Qué es Podimo?: la plataforma de podcasts

Elon Musk la lía con un tweet sobre el intento de asesinato de Trump (más que nunca)

Maduro confunde a Jordi Wild con Frank de la Jungla

Únete a nuestra newsletter semanal sobre Marketing Digital, Inteligencia Artificial y mucho más…

  Thank you for Signing Up
Please correct the marked field(s) below.
1,true,6,Correo electrónico de contacto,2
Al registrarte aceptas nuestros Términos de uso y el tratamiento de tus datos en nuestra Política de privacidad. Puedes darte de baja en cualquier momento.
Equipo M4ALL 1 de julio de 2024
Comparte
Artículo anterior Human-washing: cuando la IA se hace pasar por un humano Human-washing: cuando la IA se hace pasar por un humano con Bland AI
Artículo siguiente Qué es la ASI. La super inteligencia artificial de la que habla el CEO de Softbank Qué es la ASI. La super inteligencia artificial de la que habla el CEO de Softbank
//

Recuerda, si te lo cuentan tus padres es que te estás enterando demasiado tarde.


Únete a nuestra newsletter semanal sobre Marketing Digital, Inteligencia Artificial y mucho más…

Totalmente gratuita

  Thank you for Signing Up

Please correct the marked field(s) below.


















1,true,6,Correo electrónico de contacto,2



Síguenos

   Linkedin

Marketing4all

© 2023 Marketing4all. Todos los derechos reservados. Términos y condiciones

Eliminado de la lista de lectura

Deshacer
adbanner
AdBlock Detectado
Nuestra web está apoyada por publicidad. Por favor, añade el sitio a la lista blanca o desactiva tu adblock.
De acuerdo, lo pondré en la lista blanca
Welcome Back!

Sign in to your account

¿Ha perdido tu contraseña?