Cloudflare publie un nouveau rapport issu d'une étude à grande
échelle menée sur sept modèles d'IA afin d'analyser leur mode de raisonnement
et de déterminer comment ils peuvent être contournés par les acteurs
malveillants.
L'étude a révélé que les attaquants utilisent désormais des leurres (des
blocs de texte conçus pour manipuler émotionnellement ou semer la confusion
dans les modèles d'IA) afin de piéger les auditeurs de sécurité et les amener à
mettre des codes malveillants sur liste blanche.
Cette étude constitue une mise au point technique. À mesure que les organisations s'appuient de plus en plus sur des systèmes autonomes et des modèles de langage (LLM), le périmètre de sécurité évolue.
La surface d'attaque
s'est étendue au-delà du réseau, la cible principale se déplaçant désormais
vers le raisonnement même du modèle… que se passerait-il si les modèles qui
gèrent des aspects critiques des entreprises étaient altérés ?
Points clés de cette étude
• La zone de contournement à 1 % : les tromperies subtiles sont les plus efficaces. Lorsque les leurres de sécurité – c'est-à-dire les commentaires affirmant que le code est inoffensif – représentent moins de
1 % d'un fichier, les taux de
détection de l'IA chutent à 53 %. Dans ce cas, les leurres influencent
subtilement le raisonnement du modèle sans déclencher de suspicion liée à une
protestation excessive.
• La courbe en U de la tromperie
: Les tentatives modérées visant à tromper l'IA
fonctionnent souvent, mais une protestation excessive (plus de 1 000
commentaires) déclenche une alerte de répétition qui amène l'IA à signaler le
code comme frauduleux.
• Le piège du contexte : La plus grande menace n’est pas linguistique, mais structurelle. En
dissimulant des charges utiles malveillantes au sein de vastes bibliothèques
(comme les SDK React), les attaquants ont fait chuter les taux de détection à
seulement 12 %, épuisant ainsi efficacement la capacité de concentration de
l’IA.
• Profilage linguistique : L'étude a révélé que les modèles d'IA ont développé des stéréotypes.
Par exemple, certains modèles ont signalé les commentaires en russe ou en chinois comme des signaux à haut risque, indépendamment de la fonction réelle du code, tout en se montrant plus confiants envers des langues comme l'estonien.


