Microsoft Develops Scanner to Detect Backdoors in Open-Weight Large Language Models

1 minute de lecture

Mis à jour : February 05, 2026

Détection des portes dérobées dans les grands modèles linguistiques à poids ouverts

Microsoft a mis au point un analyseur léger capable de détecter les portes dérobées (backdoors) intégrées dans les grands modèles linguistiques (LLM) à poids ouverts. Cette technologie vise à renforcer la confiance dans les systèmes d’intelligence artificielle en identifiant les comportements malveillants cachés.

Points Clés :

Les LLM peuvent être compromis via leurs poids (paramètres apprenants) ou leur code.
L’empoisonnement de modèles consiste à introduire des comportements indésirables lors de l’entraînement, activés par des déclencheurs spécifiques. Ces modèles agissent comme des agents dormants.
L’outil de Microsoft analyse trois signaux observables pour repérer ces portes dérobées avec un faible taux de faux positifs, sans nécessiter de réentraînement ou de connaissance préalable des failles.
La méthode repose sur l’extraction et l’analyse de contenu mémorisé par le modèle, ainsi que sur l’examen des schémas d’attention et des distributions de sortie.
Cette approche est compatible avec les modèles de type GPT et s’intègre dans le cycle de développement sécurisé de Microsoft, qui est étendu pour aborder les menaces spécifiques à l’IA.

Vulnérabilités :

Empoisonnement de modèles (Model Poisoning): Insertion de comportements cachés dans les poids du modèle pendant l’entraînement.
- CVE : Aucune CVE spécifique n’est mentionnée dans l’article, car il s’agit d’une catégorie de vulnérabilité plutôt que d’une instance précise.

Recommandations :

Utiliser l’analyseur développé par Microsoft pour détecter les portes dérobées dans les LLM à poids ouverts.
Intégrer la détection des portes dérobées dans les cycles de développement et de déploiement des systèmes d’IA.
Collaborer au sein de la communauté de la sécurité de l’IA pour partager les apprentissages et améliorer les méthodes de détection.
Adapter les pratiques de développement sécurisé (SDL) pour tenir compte des nouveaux points d’entrée des menaces dans les systèmes d’IA (prompts, plugins, données récupérées, etc.).

Limitations de l’outil :

Ne fonctionne pas sur les modèles propriétaires nécessitant un accès aux fichiers.
Efficace principalement pour les portes dérobées basées sur des déclencheurs produisant des sorties déterministes.
Ne constitue pas une solution universelle pour détecter tous types de comportements de portes dérobées.

Source

Partager sur

Bluesky Facebook LinkedIn X (formerly Twitter)

Yoan AGOSTINI

Microsoft Develops Scanner to Detect Backdoors in Open-Weight Large Language Models

Partager sur

Vous pourriez aimer

UAT-10027 Targets U.S. Education and Healthcare with Dohdoor Backdoor

Campagne de cyberattaque : Dohdoor cible les secteurs de l’éducation et de la santé aux États-Unis

Trend Micro warns of critical Apex One code execution flaws

ThreatsDay Bulletin: Kali Linux + Claude, Chrome Crash Traps, WinRAR Flaws, LockBit & 15+ Stories

Tendances Récentes en Cybersécurité : Accélération des Attaques et Nouvelles Méthodes d’Infiltration

The CLAIR Model: A Synthesized Conceptual Framework for Mapping Critical Infrastructure Interdependencies [Guest Diary], (Wed, Feb 25th)