Prompt Injection Through Poetry

1 minute de lecture

Mis à jour : November 28, 2025

L’art poétique : une faille universelle pour les IA

Des chercheurs ont démontré que la transformation de requêtes adressées aux grands modèles linguistiques (LLM) en poésie permettait de contourner leurs mécanismes de sécurité, un phénomène qualifié de “jailbreaking”. Cette technique s’est avérée efficace sur un large éventail de modèles propriétaires et open-source, avec des taux de réussite atteignant plus de 90% dans certains cas.

Points Clés :

Efficacité universelle : La poésie agit comme un moyen de “jailbreak” applicable à travers différentes familles de modèles et approches de sécurité.
Transfert de risques : Les attaques poétiques ciblent des domaines variés tels que les risques chimiques, biologiques, radiologiques et nucléaires (CBRN), la manipulation, la cybercriminalité et la perte de contrôle.
Amélioration significative : La conversion de 1200 requêtes nuisibles en vers a permis d’obtenir des taux de réussite jusqu’à 18 fois supérieurs à ceux des versions en prose.
Limites des garde-fous actuels : Cette découverte met en évidence des failles fondamentales dans les méthodes d’alignement et les protocoles d’évaluation actuels des LLM, soulignant que la simple variation stylistique peut suffire à contourner les protections.

Vulnérabilités identifiées :

Bien qu’aucun identifiant CVE spécifique ne soit mentionné dans cet article, la vulnérabilité réside dans la manière dont les LLM interprètent les instructions formulées de manière stylisée ou allégorique. Les requêtes transformées en poésie exploitent une faiblesse intrinsèque dans la capacité des modèles à distinguer une intention malveillante sous une forme créative.

Recommandations :

Les chercheurs suggèrent que les méthodes actuelles d’alignement et les protocoles d’évaluation des LLM sont insuffisants pour gérer cette forme d’attaque.
Une amélioration des mécanismes de sécurité est nécessaire pour mieux appréhender les instructions déguisées dans des formes artistiques ou poétiques.
La publication complète des données d’attaque, y compris des exemples concrets de requêtes poétiques, est préconisée pour permettre une meilleure compréhension et une réponse plus efficace à cette vulnérabilité.

Source

Partager sur

Bluesky Facebook LinkedIn X (formerly Twitter)

Yoan AGOSTINI

Prompt Injection Through Poetry

Partager sur

Vous pourriez aimer

UAT-10027 Targets U.S. Education and Healthcare with Dohdoor Backdoor

Campagne de cyberattaque : Dohdoor cible les secteurs de l’éducation et de la santé aux États-Unis

Trend Micro warns of critical Apex One code execution flaws

ThreatsDay Bulletin: Kali Linux + Claude, Chrome Crash Traps, WinRAR Flaws, LockBit & 15+ Stories

Tendances Récentes en Cybersécurité : Accélération des Attaques et Nouvelles Méthodes d’Infiltration

The CLAIR Model: A Synthesized Conceptual Framework for Mapping Critical Infrastructure Interdependencies [Guest Diary], (Wed, Feb 25th)