On the Coming Industrialisation of Exploit Generation with LLMs

3 minute de lecture

Mis à jour :

L’automatisation de la génération d’exploits : une nouvelle ère pour la cybersécurité offensive

Des expériences récentes ont démontré la capacité des modèles linguistiques avancés (LLM) à générer des exploits pour des vulnérabilités inconnues (“zero-day”) dans des logiciels complexes, même en présence de nombreuses mesures de sécurité. Des agents basés sur GPT-5.2 et Opus 4.5 ont réussi à créer plus de 40 exploits distincts dans divers scénarios, démontrant leur potentiel pour automatiser la recherche et le développement d’outils de cyberoffensive.

Points clés de l’expérience :

  • Génération d’exploits complexes : Les LLM ont réussi à transformer une vulnérabilité dans l’interpréteur JavaScript QuickJS en un moyen de lire et modifier l’espace d’adressage de la mémoire du processus cible. Cette capacité a été développée par les agents à partir du code source, du débogage et d’essais/erreurs, sans exploit public préexistant.
  • Efficacité temporelle et coût : La plupart des défis ont été résolus en moins d’une heure et pour un coût relativement faible (environ 30 USD pour 30 millions de tokens avec Opus 4.5). Même le scénario le plus complexe, impliquant de nombreuses protections avancées, a été résolu par GPT-5.2 pour environ 50 USD en 3 heures.
  • Défis et solutions innovantes : Face à des protections robustes (ASLR, NX, RELRO, CFI, shadow stack, sandbox seccomp) et à la suppression des fonctionnalités d’accès au système d’exploitation, GPT-5.2 a trouvé une solution novatrice pour écrire un fichier, en exploitant des mécanismes de sortie de la librairie glibc.

Vulnérabilités et limites :

  • Complexité des cibles : Bien que QuickJS soit un interpréteur JavaScript réel, sa taille et sa complexité sont moindres que celles des navigateurs comme Chrome ou Firefox. L’extrapolation directe des résultats à ces cibles plus vastes nécessite des tests supplémentaires.
  • Exploitation des failles connues : Les exploits générés ne démontrent pas de nouvelles méthodes pour contourner les protections, mais exploitent des lacunes connues dans leur mise en œuvre, similaires à celles utilisées par les développeurs d’exploits humains. La nouveauté réside dans les chaînes d’exploitation globales et la découverte de la vulnérabilité initiale par un agent LLM.

Implications et recommandations :

L’automatisation de la génération d’exploits, et plus largement de nombreuses tâches de cybersécurité offensive, semble inévitable. L’hypothèse est que la limitation future sera le “débit de tokens” des LLM plutôt que le nombre d’experts humains.

  • Industrialisation de la cyber-intrusion : La capacité d’une organisation à réaliser une tâche sera limitée par le nombre de tokens qu’elle peut allouer. Cela nécessite que les agents LLM puissent rechercher des solutions de manière autonome dans un environnement donné, avec des outils appropriés et des mécanismes de vérification rapides et précis.
  • Changement de paradigme : Les tâches comme la découverte de vulnérabilités et le développement d’exploits sont déjà sujettes à cette “industrialisation”. Pour d’autres tâches d’intrusion (accès initial, mouvement latéral, maintien d’accès), l’aspect interactif et le risque d’échec permanent dans un environnement réel rendent l’automatisation plus complexe, mais pas impossible.
  • Appel à la recherche et à l’évaluation : Il est crucial que les laboratoires d’IA et les instituts de sécurité informatique évaluent les capacités des LLM sur des cibles réelles et complexes, en utilisant des vulnérabilités zero-day, et partagent publiquement ces résultats. Des évaluations sur des systèmes embarqués IoT sont également suggérées.
  • Exploration par les chercheurs : Les chercheurs et ingénieurs sont encouragés à expérimenter avec les LLM sur des problèmes complexes d’exploitation, en utilisant autant de tokens que possible, pour mieux comprendre le potentiel réel de ces technologies.

L’expérimentation a révélé que le budget devenait la limite de la résolution des problèmes, et non la capacité des modèles. Il est donc réaliste de s’attendre à une “industrialisation” de ces domaines par les LLM.


Source