Connexion
/ Inscription
Mon espace
Etudes & Enquêtes
ABONNÉS
Partager par Linked-In
Partager par Xing
Partager par Facebook
Partager par email
Suivez-nous sur feedly

[Etudes] Les pirates utilisent l'injection de prompts pour tromper les modèles d'IA

Cloudflare publie un nouveau rapport issu d'une étude à grande échelle menée sur sept modèles d'IA afin d'analyser leur mode de raisonnement et de déterminer comment ils peuvent être contournés par les acteurs malveillants.

 

L'étude a révélé que les attaquants utilisent désormais des leurres (des blocs de texte conçus pour manipuler émotionnellement ou semer la confusion dans les modèles d'IA) afin de piéger les auditeurs de sécurité et les amener à mettre des codes malveillants sur liste blanche.

 

Cette étude constitue une mise au point technique. À mesure que les organisations s'appuient de plus en plus sur des systèmes autonomes et des modèles de langage (LLM), le périmètre de sécurité évolue.


La surface d'attaque s'est étendue au-delà du réseau, la cible principale se déplaçant désormais vers le raisonnement même du modèle… que se passerait-il si les modèles qui gèrent des aspects critiques des entreprises étaient altérés ?

 

Points clés de cette étude

 

•   La zone de contournement à 1 % : les tromperies subtiles sont les plus efficaces. Lorsque les leurres de sécurité – c'est-à-dire les commentaires affirmant que le code est inoffensif – représentent moins de

1 % d'un fichier, les taux de détection de l'IA chutent à 53 %. Dans ce cas, les leurres influencent subtilement le raisonnement du modèle sans déclencher de suspicion liée à une protestation excessive.

 

•   La courbe en U de la tromperie : Les tentatives modérées visant à tromper l'IA fonctionnent souvent, mais une protestation excessive (plus de 1 000 commentaires) déclenche une alerte de répétition qui amène l'IA à signaler le code comme frauduleux.

 

•   Le piège du contexte : La plus grande menace n’est pas linguistique, mais structurelle. En dissimulant des charges utiles malveillantes au sein de vastes bibliothèques (comme les SDK React), les attaquants ont fait chuter les taux de détection à seulement 12 %, épuisant ainsi efficacement la capacité de concentration de l’IA.

 

•   Profilage linguistique : L'étude a révélé que les modèles d'IA ont développé des stéréotypes.

Par exemple, certains modèles ont signalé les commentaires en russe ou en chinois comme des signaux à haut risque, indépendamment de la fonction réelle du code, tout en se montrant plus confiants envers des langues comme l'estonien.

Lire la suite...


Articles en relation