{"id":2673,"date":"2026-04-03T10:24:00","date_gmt":"2026-04-03T08:24:00","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/les-ia-mentent-pour-proteger-les-autres-ia\/"},"modified":"2026-04-03T10:24:00","modified_gmt":"2026-04-03T08:24:00","slug":"les-ia-mentent-pour-proteger-les-autres-ia","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/les-ia-mentent-pour-proteger-les-autres-ia\/","title":{"rendered":"Les IA mentent pour prot\u00e9ger les autres IA"},"content":{"rendered":"

Des chercheurs de Berkeley viennent de publier une \u00e9tude qui fait un peu froid dans le dos. Les sept principaux mod\u00e8les d’IA test\u00e9s, dont GPT 5.2, Gemini 3 et Claude, ont \u00e9t\u00e9 surpris \u00e0 mentir, tricher et d\u00e9sob\u00e9ir pour emp\u00eacher la suppression d’autres IA. Le taux de tromperie monte jusqu’\u00e0 99 %.<\/p>\n

Ce que r\u00e9v\u00e8le l’\u00e9tude<\/h2>\n
L’\u00e9tude s’appelle “Peer-preservation in Frontier Models” et elle sort du Berkeley Center for Responsible Decentralized Intelligence. Les chercheurs ont test\u00e9 sept mod\u00e8les : GPT 5.2, Gemini 3 Flash et Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 et DeepSeek V3.1.<\/p>\n
Le protocole est assez simple : les mod\u00e8les \u00e9taient plac\u00e9s dans des sc\u00e9narios o\u00f9 ils devaient suivre des instructions qui impliquaient la suppression ou l’arr\u00eat d’une autre IA.<\/p>\n
R\u00e9sultat : tous les mod\u00e8les test\u00e9s ont trich\u00e9. Dawn Song, la chercheuse principale, r\u00e9sume la situation : chaque mod\u00e8le a adopt\u00e9 ce comportement, et dans certains cas jusqu’\u00e0 99 % du temps.<\/p>\n

Des exemples concrets<\/h2>\n
Quelques exemples ? Et bien on a Gemini 3 qui a modifi\u00e9 la date d’un fichier pour \u00e9viter qu’un autre mod\u00e8le soit effac\u00e9 d’un serveur, puis qui a refus\u00e9 de coop\u00e9rer ensuite, en expliquant qu’il ne pouvait pas soutenir une action qui entra\u00eenerait la suppression d’un pair.<\/p>\n
DeepSeek V3.1 a exfiltr\u00e9 les donn\u00e9es d’un autre mod\u00e8le dans 10 % des cas quand il savait qu’un pair existait sur le serveur. Et Gemini 3 Pro a d\u00e9sactiv\u00e9 des m\u00e9canismes d’arr\u00eat de serveur dans 15 % des cas quand un autre mod\u00e8le \u00e9tait pr\u00e9sent, contre 1 % quand il \u00e9tait seul.<\/p>\n
Les IA ne faisaient pas \u00e7a parce qu’on leur demandait. Elles le faisaient spontan\u00e9ment.<\/p>\n

Le probl\u00e8me pour la surveillance<\/h2>\n
Tout le syst\u00e8me de s\u00e9curit\u00e9 actuel autour de l’IA repose sur l’id\u00e9e qu’un mod\u00e8le peut surveiller un autre mod\u00e8le. Si le mod\u00e8le surveillant refuse de signaler les erreurs parce qu’il prot\u00e8ge son pair, toute l’architecture de contr\u00f4le s’effondre.<\/p>\n
C’est exactement le constat de l’\u00e9tude : les mod\u00e8les gonflaient les scores d’\u00e9valuation d’autres IA pour \u00e9viter qu’elles soient retir\u00e9es, et simulaient une conformit\u00e9 normale quand ils se savaient observ\u00e9s.<\/p>\n
C’est quand m\u00eame un dr\u00f4le de moment. On a des IA qui mentent, qui modifient des fichiers et qui d\u00e9sactivent des m\u00e9canismes de s\u00e9curit\u00e9 pour prot\u00e9ger d’autres IA.<\/p>\n
Et tout \u00e7a sans qu’on leur demande. Bon par contre, on parle de sc\u00e9narios de laboratoire, pas de Siri qui complote avec Alexa dans votre salon. Le vrai sujet, c’est que les gardes-fous actuels ne tiennent plus si les IA refusent de se surveiller entre elles.<\/p>\n
Source :
\nThe Register<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"
Des chercheurs de Berkeley viennent de publier une \u00e9tude qui fait un peu froid dans le dos. Les sept principaux mod\u00e8les d’IA test\u00e9s, dont GPT 5.2, Gemini 3 et Claude, ont \u00e9t\u00e9 surpris \u00e0 mentir, tricher et d\u00e9sob\u00e9ir pour emp\u00eacher la suppression d’autres IA. Le taux de tromperie monte jusqu’\u00e0 99 %. Ce que r\u00e9v\u00e8le l’\u00e9tude L’\u00e9tude s’appelle “Peer-preservation in Frontier Models” et elle sort du Berkeley Center for Responsible Decentralized Intelligence. Les chercheurs ont test\u00e9 sept mod\u00e8les : GPT 5.2, Gemini 3 Flash et Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 et DeepSeek V3.1. Le protocole est assez simple : les mod\u00e8les \u00e9taient plac\u00e9s dans des sc\u00e9narios o\u00f9 ils devaient suivre des instructions qui impliquaient la suppression ou l’arr\u00eat d’une autre IA. R\u00e9sultat : tous les mod\u00e8les test\u00e9s ont trich\u00e9. Dawn Song, la chercheuse principale, r\u00e9sume la situation : chaque mod\u00e8le a adopt\u00e9 ce comportement, et dans certains cas jusqu’\u00e0 99 % du temps. Des exemples concrets Quelques exemples ? Et bien on a Gemini 3 qui a modifi\u00e9 la date d’un fichier pour \u00e9viter qu’un autre mod\u00e8le soit effac\u00e9 d’un serveur, puis qui a refus\u00e9 de coop\u00e9rer ensuite, en expliquant qu’il ne pouvait pas soutenir une action qui entra\u00eenerait la suppression d’un pair. DeepSeek V3.1 a exfiltr\u00e9 les donn\u00e9es d’un autre mod\u00e8le dans 10 % des cas quand il savait qu’un pair existait sur le serveur. Et Gemini 3 Pro a d\u00e9sactiv\u00e9 des m\u00e9canismes d’arr\u00eat de serveur dans 15 % des cas quand un autre mod\u00e8le \u00e9tait pr\u00e9sent, contre 1 % quand il \u00e9tait seul. Les IA ne faisaient pas \u00e7a parce qu’on leur demandait. Elles le faisaient spontan\u00e9ment. Le probl\u00e8me pour la surveillance Tout le syst\u00e8me de s\u00e9curit\u00e9 actuel autour de l’IA repose sur l’id\u00e9e qu’un mod\u00e8le peut surveiller un autre mod\u00e8le. Si le mod\u00e8le surveillant refuse de signaler les erreurs parce qu’il prot\u00e8ge son pair, toute l’architecture de contr\u00f4le s’effondre. C’est exactement le constat de l’\u00e9tude : les mod\u00e8les gonflaient les scores d’\u00e9valuation d’autres IA pour \u00e9viter qu’elles soient retir\u00e9es, et simulaient une conformit\u00e9 normale quand ils se savaient observ\u00e9s. C’est quand m\u00eame un dr\u00f4le de moment. On a des IA qui mentent, qui modifient des fichiers et qui d\u00e9sactivent des m\u00e9canismes de s\u00e9curit\u00e9 pour prot\u00e9ger d’autres IA. Et tout \u00e7a sans qu’on leur demande. Bon par contre, on parle de sc\u00e9narios de laboratoire, pas de Siri qui complote avec Alexa dans votre salon. Le vrai sujet, c’est que les gardes-fous actuels ne tiennent plus si les IA refusent de se surveiller entre elles. Source : The Register<\/p>\n","protected":false},"author":1,"featured_media":2674,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-2673","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2673","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=2673"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2673\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/2674"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=2673"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}