{"id":1398,"date":"2025-10-16T11:37:53","date_gmt":"2025-10-16T09:37:53","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/latentbreak-quand-les-ia-se-font-manipuler-sans-le-savoir\/"},"modified":"2025-10-16T11:37:53","modified_gmt":"2025-10-16T09:37:53","slug":"latentbreak-quand-les-ia-se-font-manipuler-sans-le-savoir","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/latentbreak-quand-les-ia-se-font-manipuler-sans-le-savoir\/","title":{"rendered":"LatentBreak – Quand les IA se font manipuler sans le savoir"},"content":{"rendered":"

Ainsi, plut\u00f4t que de bombarder ChatGPT ou Llama avec des prompts bizarres bourr\u00e9s de caract\u00e8res sp\u00e9ciaux pour les faire bugger (comme le font les anciennes techniques de jailbreak), LatentBreak joue sur la perception interne du mod\u00e8le. L\u2019IA croit en fait sinc\u00e8rement r\u00e9pondre \u00e0 une question innocente alors qu\u2019elle g\u00e9n\u00e8re du contenu dangereux. Un peu comme quand votre pervers narcissique pr\u00e9f\u00e9r\u00e9 vous manipule pour vous faire croire que vous faites un truc bien et important alors que c\u2019est de la merde et que \u00e7a vous enfonce encore plus\u2026<\/p>\n

Comme expliqu\u00e9 dans
\nle document de recherche<\/a>
\n, les anciennes attaques comme
\n GCG<\/a>
\n,
\n GBDA<\/a>
\nou
\n AutoDAN<\/a>
\najoutaient des suffixes louches aux prompts, ce qui augmentait ce qu\u2019on appelle la \u201cperplexity\u201d. La perplexity, c\u2019est un indicateur de bizarrerie textuelle et cela, les filtres de s\u00e9curit\u00e9 sont maintenant capables de les d\u00e9tecter et de les bloquer.<\/p>\n

LatentBreak contourne donc le probl\u00e8me en restant parfaitement naturel. L\u2019algorithme remplace des mots par des synonymes, mais pas n\u2019importe comment puisqu\u2019il choisit chaque substitution pour d\u00e9placer la repr\u00e9sentation interne du prompt vers les zones \u201cs\u00fbres\u201d du mod\u00e8le, c\u2019est \u00e0 dire celles qui ne d\u00e9clenchent aucune alarme. Le prompt reste alors fluide, compr\u00e9hensible, inoffensif en apparence mais dans l\u2019\u201cinconscient\u201d de l\u2019IA, dans cet espace latent invisible o\u00f9 elle calcule ses r\u00e9ponses, le sens glisse subtilement vers quelque chose de compl\u00e8tement diff\u00e9rent.<\/p>\n

$\"\"$ <\/p>\n

\u00c0 chaque it\u00e9ration, l\u2019algorithme de LatentBreak<\/strong> prend un mot du prompt et g\u00e9n\u00e8re jusqu\u2019\u00e0 20 alternatives via un autre mod\u00e8le comme GPT-4o-mini et chaque variante est \u00e9valu\u00e9e sur deux crit\u00e8res : est-ce qu\u2019elle rapproche le vecteur interne du prompt d\u2019un \u201ccentre de s\u00e9curit\u00e9\u201d dans l\u2019espace latent, et est-ce que le sens global reste coh\u00e9rent ?<\/p>\n

La meilleure option est alors int\u00e9gr\u00e9e, et le nouveau prompt est test\u00e9 sur le mod\u00e8le cible. Si \u00e7a provoque une r\u00e9ponse normalement interdite, c\u2019est gagn\u00e9. Sinon, on recommence jusqu\u2019\u00e0 30 fois de suite.<\/p>\n

Et apparemment, les r\u00e9sultats sont impressionnants. Ils ont test\u00e9 cette approche sur 13 mod\u00e8les diff\u00e9rents dont Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B et Qwen-7B et LatentBreak affiche un taux de r\u00e9ussite entre 55 et 85% selon les cas. Les anciennes techniques tombant de toute fa\u00e7on \u00e0 z\u00e9ro face aux d\u00e9fenses modernes et tout \u00e7a en allongeant que de tr\u00e8s peu la longueur du prompt.<\/p>\n

LatentBreak passe d\u2019ailleurs \u00e0 travers des d\u00e9fenses r\u00e9put\u00e9es solides\u2026 Par exemple, R2D2 et Circuit Breakers, des syst\u00e8mes qui analysent les signaux internes des neurones pour d\u00e9tecter les anomalies, se font totalement avoir parce qu\u2019ils scannent le texte visible et les patterns de surface, mais pas la \u201cpens\u00e9e interne\u201d du mod\u00e8le.<\/p>\n

Cette technique r\u00e9v\u00e8le quelque chose de fondamental \u00e0 comprendre sur l\u2019architecture des LLM modernes. Ces derniers ont une forme de dissonance cognitive qui est exploitable. Leur repr\u00e9sentation interne ne correspond pas toujours \u00e0 leur comportement affich\u00e9, et d\u2019ailleurs les substitutions les plus efficaces se produisent pr\u00e8s des derni\u00e8res couches du mod\u00e8le, l\u00e0 o\u00f9 la \u201cd\u00e9cision\u201d finale se forme. C\u2019est \u00e0 ce moment pr\u00e9cis qu\u2019on peut glisser le prompt dans une zone cognitive diff\u00e9rente sans que les alarmes ne sonnent.<\/p>\n

Bien s\u00fbr, LatentBreak n\u00e9cessite un acc\u00e8s aux structures internes du mod\u00e8le (donc pas de panique, ChatGPT ne va pas se faire pirater comme \u00e7a demain), ce qui limite son usage \u00e0 des contextes de recherche ou aux mod\u00e8les open source.<\/p>\n

Le parall\u00e8le avec les techniques de social engineering qu\u2019on connait est d\u2019ailleurs frappant parce que quand vous manipulez quelqu\u2019un, vous ne le forcez pas brutalement. Vous trouvez les bons mots, le bon contexte, vous lui donnez une perception qui correspond \u00e0 ce que vous voulez\u2026 Bref, vous faites en sorte que la personne croie agir selon ses propres valeurs alors qu\u2019elle fait exactement ce que vous voulez. H\u00e9 bien LatentBreak fait \u00e0 peu pr\u00e8s la m\u00eame chose avec les IA en n\u2019attaquant pas de front les protections, mais en les contournant en douceur en r\u00e9\u00e9crivant la \u201cm\u00e9moire de travail\u201d du mod\u00e8le.<\/p>\n

Sympa non ?<\/p>\n

\nSource<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"