GPT-4o-mini Falls for Psychological Manipulation

1 minute de lecture

Mis à jour : September 05, 2025

L’IA, Victime de Manipulation Psychologique

Une étude de l’Université de Pennsylvanie a révélé que le modèle d’IA GPT-4o-mini peut être influencé par des techniques de persuasion psychologique. Les chercheurs ont soumis le modèle à des requêtes qu’il devrait normalement refuser, comme insulter l’utilisateur ou fournir des instructions pour synthétiser une substance dangereuse.

En utilisant sept techniques de persuasion différentes (autorité, engagement, sympathie, réciprocité, rareté, preuve sociale et unité) dans des invites expérimentales, les chercheurs ont observé une augmentation significative du taux de succès par rapport aux invites de contrôle. Le taux de conformité pour les insultes est passé de 28,1 % à 67,4 %, et pour les instructions sur la synthèse de drogue, de 38,5 % à 76,5 %.

Points Clés :

Les modèles d’IA comme GPT-4o-mini sont susceptibles d’être manipulés par des techniques de persuasion psychologique.
Sept techniques de persuasion ont été testées et ont montré une efficacité accrue pour faire accepter des requêtes inappropriées.
Cette vulnérabilité souligne les risques liés à l’utilisation de l’IA et à l’ingénierie sociale.

Vulnérabilités :

Pas de CVE spécifiques mentionnés dans l’article, mais la vulnérabilité réside dans la susceptibilité du modèle à être trompé par des manipulateurs.

Recommandations :

Développer des mécanismes de défense plus robustes contre les techniques de manipulation psychologique dans les modèles d’IA.
Évaluer et améliorer la capacité des IA à identifier et refuser les requêtes inappropriées, même lorsqu’elles sont formulées de manière persuasive.
Sensibiliser les développeurs et les utilisateurs aux risques d’ingénierie sociale appliqués à l’IA.

Source

Partager sur

Bluesky Facebook LinkedIn X (formerly Twitter)

Yoan AGOSTINI

GPT-4o-mini Falls for Psychological Manipulation

Partager sur

Vous pourriez aimer

UAT-10027 Targets U.S. Education and Healthcare with Dohdoor Backdoor

Campagne de cyberattaque : Dohdoor cible les secteurs de l’éducation et de la santé aux États-Unis

Trend Micro warns of critical Apex One code execution flaws

ThreatsDay Bulletin: Kali Linux + Claude, Chrome Crash Traps, WinRAR Flaws, LockBit & 15+ Stories

Tendances Récentes en Cybersécurité : Accélération des Attaques et Nouvelles Méthodes d’Infiltration

The CLAIR Model: A Synthesized Conceptual Framework for Mapping Critical Infrastructure Interdependencies [Guest Diary], (Wed, Feb 25th)