Prompt Injection Through Poetry

1 minute de lecture

Mis à jour :

L’art poétique : une faille universelle pour les IA

Des chercheurs ont démontré que la transformation de requêtes adressées aux grands modèles linguistiques (LLM) en poésie permettait de contourner leurs mécanismes de sécurité, un phénomène qualifié de “jailbreaking”. Cette technique s’est avérée efficace sur un large éventail de modèles propriétaires et open-source, avec des taux de réussite atteignant plus de 90% dans certains cas.

Points Clés :

  • Efficacité universelle : La poésie agit comme un moyen de “jailbreak” applicable à travers différentes familles de modèles et approches de sécurité.
  • Transfert de risques : Les attaques poétiques ciblent des domaines variés tels que les risques chimiques, biologiques, radiologiques et nucléaires (CBRN), la manipulation, la cybercriminalité et la perte de contrôle.
  • Amélioration significative : La conversion de 1200 requêtes nuisibles en vers a permis d’obtenir des taux de réussite jusqu’à 18 fois supérieurs à ceux des versions en prose.
  • Limites des garde-fous actuels : Cette découverte met en évidence des failles fondamentales dans les méthodes d’alignement et les protocoles d’évaluation actuels des LLM, soulignant que la simple variation stylistique peut suffire à contourner les protections.

Vulnérabilités identifiées :

Bien qu’aucun identifiant CVE spécifique ne soit mentionné dans cet article, la vulnérabilité réside dans la manière dont les LLM interprètent les instructions formulées de manière stylisée ou allégorique. Les requêtes transformées en poésie exploitent une faiblesse intrinsèque dans la capacité des modèles à distinguer une intention malveillante sous une forme créative.

Recommandations :

  • Les chercheurs suggèrent que les méthodes actuelles d’alignement et les protocoles d’évaluation des LLM sont insuffisants pour gérer cette forme d’attaque.
  • Une amélioration des mécanismes de sécurité est nécessaire pour mieux appréhender les instructions déguisées dans des formes artistiques ou poétiques.
  • La publication complète des données d’attaque, y compris des exemples concrets de requêtes poétiques, est préconisée pour permettre une meilleure compréhension et une réponse plus efficace à cette vulnérabilité.

Source