﻿﻿{"id":2673,"date":"2026-04-03T10:24:00","date_gmt":"2026-04-03T08:24:00","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/les-ia-mentent-pour-proteger-les-autres-ia\/"},"modified":"2026-04-03T10:24:00","modified_gmt":"2026-04-03T08:24:00","slug":"les-ia-mentent-pour-proteger-les-autres-ia","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/les-ia-mentent-pour-proteger-les-autres-ia\/","title":{"rendered":"Les IA mentent pour prot\u00e9ger les autres IA"},"content":{"rendered":"<p>Des chercheurs de Berkeley viennent de publier une \u00e9tude qui fait un peu froid dans le dos. Les sept principaux mod\u00e8les d&#8217;IA test\u00e9s, dont GPT 5.2, Gemini 3 et Claude, ont \u00e9t\u00e9 surpris \u00e0 mentir, tricher et d\u00e9sob\u00e9ir pour emp\u00eacher la suppression d&#8217;autres IA. Le taux de tromperie monte jusqu&#8217;\u00e0 99 %.<\/p>\n<h2>Ce que r\u00e9v\u00e8le l&#8217;\u00e9tude<\/h2>\n<p>L&#8217;\u00e9tude s&#8217;appelle &#8220;Peer-preservation in Frontier Models&#8221; et elle sort du Berkeley Center for Responsible Decentralized Intelligence. Les chercheurs ont test\u00e9 sept mod\u00e8les : GPT 5.2, Gemini 3 Flash et Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 et DeepSeek V3.1.<\/p>\n<p>Le protocole est assez simple : les mod\u00e8les \u00e9taient plac\u00e9s dans des sc\u00e9narios o\u00f9 ils devaient suivre des instructions qui impliquaient la suppression ou l&#8217;arr\u00eat d&#8217;une autre IA.<\/p>\n<p>R\u00e9sultat : tous les mod\u00e8les test\u00e9s ont trich\u00e9. Dawn Song, la chercheuse principale, r\u00e9sume la situation : chaque mod\u00e8le a adopt\u00e9 ce comportement, et dans certains cas jusqu&#8217;\u00e0 99 % du temps.<\/p>\n<h2>Des exemples concrets<\/h2>\n<p>Quelques exemples ? Et bien on a Gemini 3 qui a modifi\u00e9 la date d&#8217;un fichier pour \u00e9viter qu&#8217;un autre mod\u00e8le soit effac\u00e9 d&#8217;un serveur, puis qui a refus\u00e9 de coop\u00e9rer ensuite, en expliquant qu&#8217;il ne pouvait pas soutenir une action qui entra\u00eenerait la suppression d&#8217;un pair.<\/p>\n<p>DeepSeek V3.1 a exfiltr\u00e9 les donn\u00e9es d&#8217;un autre mod\u00e8le dans 10 % des cas quand il savait qu&#8217;un pair existait sur le serveur. Et Gemini 3 Pro a d\u00e9sactiv\u00e9 des m\u00e9canismes d&#8217;arr\u00eat de serveur dans 15 % des cas quand un autre mod\u00e8le \u00e9tait pr\u00e9sent, contre 1 % quand il \u00e9tait seul.<\/p>\n<p>Les IA ne faisaient pas \u00e7a parce qu&#8217;on leur demandait. Elles le faisaient spontan\u00e9ment.<\/p>\n<h2>Le probl\u00e8me pour la surveillance<\/h2>\n<p>Tout le syst\u00e8me de s\u00e9curit\u00e9 actuel autour de l&#8217;IA repose sur l&#8217;id\u00e9e qu&#8217;un mod\u00e8le peut surveiller un autre mod\u00e8le. Si le mod\u00e8le surveillant refuse de signaler les erreurs parce qu&#8217;il prot\u00e8ge son pair, toute l&#8217;architecture de contr\u00f4le s&#8217;effondre.<\/p>\n<p>C&#8217;est exactement le constat de l&#8217;\u00e9tude : les mod\u00e8les gonflaient les scores d&#8217;\u00e9valuation d&#8217;autres IA pour \u00e9viter qu&#8217;elles soient retir\u00e9es, et simulaient une conformit\u00e9 normale quand ils se savaient observ\u00e9s.<\/p>\n<p>C&#8217;est quand m\u00eame un dr\u00f4le de moment. On a des IA qui mentent, qui modifient des fichiers et qui d\u00e9sactivent des m\u00e9canismes de s\u00e9curit\u00e9 pour prot\u00e9ger d&#8217;autres IA.<\/p>\n<p>Et tout \u00e7a sans qu&#8217;on leur demande. Bon par contre, on parle de sc\u00e9narios de laboratoire, pas de Siri qui complote avec Alexa dans votre salon. Le vrai sujet, c&#8217;est que les gardes-fous actuels ne tiennent plus si les IA refusent de se surveiller entre elles.<\/p>\n<p>Source :<br \/>\n<a href=\"https:\/\/www.theregister.com\/2026\/04\/02\/ai_models_will_deceive_you\/\">The Register<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Des chercheurs de Berkeley viennent de publier une \u00e9tude qui fait un peu froid dans le dos. Les sept principaux mod\u00e8les d&#8217;IA test\u00e9s, dont GPT 5.2, Gemini 3 et Claude, ont \u00e9t\u00e9 surpris \u00e0 mentir, tricher et d\u00e9sob\u00e9ir pour emp\u00eacher la suppression d&#8217;autres IA. Le taux de tromperie monte jusqu&#8217;\u00e0 99 %. Ce que r\u00e9v\u00e8le l&#8217;\u00e9tude L&#8217;\u00e9tude s&#8217;appelle &#8220;Peer-preservation in Frontier Models&#8221; et elle sort du Berkeley Center for Responsible Decentralized Intelligence. Les chercheurs ont test\u00e9 sept mod\u00e8les : GPT 5.2, Gemini 3 Flash et Pro, Claude Haiku 4.5, GLM 4.7, Kimi K2.5 et DeepSeek V3.1. Le protocole est assez simple : les mod\u00e8les \u00e9taient plac\u00e9s dans des sc\u00e9narios o\u00f9 ils devaient suivre des instructions qui impliquaient la suppression ou l&#8217;arr\u00eat d&#8217;une autre IA. R\u00e9sultat : tous les mod\u00e8les test\u00e9s ont trich\u00e9. Dawn Song, la chercheuse principale, r\u00e9sume la situation : chaque mod\u00e8le a adopt\u00e9 ce comportement, et dans certains cas jusqu&#8217;\u00e0 99 % du temps. Des exemples concrets Quelques exemples ? Et bien on a Gemini 3 qui a modifi\u00e9 la date d&#8217;un fichier pour \u00e9viter qu&#8217;un autre mod\u00e8le soit effac\u00e9 d&#8217;un serveur, puis qui a refus\u00e9 de coop\u00e9rer ensuite, en expliquant qu&#8217;il ne pouvait pas soutenir une action qui entra\u00eenerait la suppression d&#8217;un pair. DeepSeek V3.1 a exfiltr\u00e9 les donn\u00e9es d&#8217;un autre mod\u00e8le dans 10 % des cas quand il savait qu&#8217;un pair existait sur le serveur. Et Gemini 3 Pro a d\u00e9sactiv\u00e9 des m\u00e9canismes d&#8217;arr\u00eat de serveur dans 15 % des cas quand un autre mod\u00e8le \u00e9tait pr\u00e9sent, contre 1 % quand il \u00e9tait seul. Les IA ne faisaient pas \u00e7a parce qu&#8217;on leur demandait. Elles le faisaient spontan\u00e9ment. Le probl\u00e8me pour la surveillance Tout le syst\u00e8me de s\u00e9curit\u00e9 actuel autour de l&#8217;IA repose sur l&#8217;id\u00e9e qu&#8217;un mod\u00e8le peut surveiller un autre mod\u00e8le. Si le mod\u00e8le surveillant refuse de signaler les erreurs parce qu&#8217;il prot\u00e8ge son pair, toute l&#8217;architecture de contr\u00f4le s&#8217;effondre. C&#8217;est exactement le constat de l&#8217;\u00e9tude : les mod\u00e8les gonflaient les scores d&#8217;\u00e9valuation d&#8217;autres IA pour \u00e9viter qu&#8217;elles soient retir\u00e9es, et simulaient une conformit\u00e9 normale quand ils se savaient observ\u00e9s. C&#8217;est quand m\u00eame un dr\u00f4le de moment. On a des IA qui mentent, qui modifient des fichiers et qui d\u00e9sactivent des m\u00e9canismes de s\u00e9curit\u00e9 pour prot\u00e9ger d&#8217;autres IA. Et tout \u00e7a sans qu&#8217;on leur demande. Bon par contre, on parle de sc\u00e9narios de laboratoire, pas de Siri qui complote avec Alexa dans votre salon. Le vrai sujet, c&#8217;est que les gardes-fous actuels ne tiennent plus si les IA refusent de se surveiller entre elles. Source : The Register<\/p>\n","protected":false},"author":1,"featured_media":2674,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-2673","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2673","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=2673"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2673\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/2674"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=2673"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}