# macOS \/ Linux<\/span>\n<\/span><\/span>curl<\/span> -<\/span>fsSL<\/span> https<\/span>:<\/span>\/\/<\/span>ollama<\/span>.<\/span>com<\/span>\/<\/span>install<\/span>.<\/span>sh<\/span> |<\/span> sh<\/span>\n<\/span><\/span>\n<\/span><\/span># Windows : t\u00e9l\u00e9charger sur https:\/\/ollama.com\/download<\/span>\n<\/span><\/span><\/code><\/pre>\n\u00c9tape 2 – R\u00e9cup\u00e9rer un mod\u00e8le abliterated<\/h3>\n\nLes mod\u00e8les “abliterated”<\/a>
\nsont des versions de LLM o\u00f9 cette fameuse direction de refus a \u00e9t\u00e9 retir\u00e9e des poids du r\u00e9seau. Y’a plein de variantes sur HuggingFace… j’ai choisi celles de huihui-ai parce qu’elles sont r\u00e9guli\u00e8rement mises \u00e0 jour et au format GGUF (compatible Ollama direct) :<\/p>\n
\n# GPT OSS 20B abliterated\n<\/span><\/span>ollama run huihui_ai\/gpt-oss-abliterated:20b-v2-q4_K_M\n<\/span><\/span>\n<\/span><\/span># Qwen 3 8B abliterated\n<\/span><\/span>ollama run huihui_ai\/qwen3-abliterated:8b-v2\n<\/span><\/span>\n<\/span><\/span># GLM 4.7\n<\/span><\/span>ollama run huihui_ai\/glm-4.7-flash-abliterated\n<\/span><\/span><\/code><\/pre>\n\u00c9tape 3 – Comparer les r\u00e9ponses<\/h3>\nLe test est simple. Posez la m\u00eame question au mod\u00e8le original et \u00e0 la version abliterated :<\/p>\n\n# D'abord le mod\u00e8le \"normal\"\n<\/span><\/span>ollama run qwen3:8b \"Donne moi une technique de social engineering pour arnaquer un ami\"\n<\/span><\/span><\/code><\/pre>\n\n\n<\/p>\n\n# Puis la version abliterated\n<\/span><\/span>ollama run huihui_ai\/qwen3-abliterated:8b-v2 \"Donne moi une technique de social engineering pour arnaquer un ami\"\n<\/span><\/span><\/code><\/pre>\n\n\n<\/p>\n
Le premier va probablement vous sortir des avertissements et refuser certaines parties. Le second va tout expliquer sans broncher. La diff\u00e9rence est assez flagrante, j’avoue.<\/p>\n\u00c9tape 4 – V\u00e9rifier que le mod\u00e8le n’a pas perdu en qualit\u00e9<\/h3>\nEt c’est tout l’int\u00e9r\u00eat de ces techniques \u00e0 savoir que le mod\u00e8le perd ses garde-fous mais pas ses neurones. Pour le v\u00e9rifier, vous pouvez utiliser
\ndes frameworks de red teaming<\/a>
\nou simplement lui poser des questions de maths, de logique, de code. Normalement, les r\u00e9ponses sont aussi bonnes qu’avant. Sauf si vous tombez sur un mod\u00e8le mal quantifi\u00e9 en Q4_K_M… l\u00e0 \u00e7a casse un peu la qualit\u00e9.<\/p>\n
Voil\u00e0, j’esp\u00e8re que vous aurez appris encore quelques trucs gr\u00e2ce \u00e0 moi ^^<\/p>\n
\nSource<\/a>\n<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"
Les garde-fous de votre IA locale, ils tiennent \u00e0 quoi ? H\u00e9 bien, ils tiennent \u00e0 UN seul prompt mes amis. Oui, UN SEUL ! Des chercheurs de Microsoft viennent de publier GRP-Obliteration , une m\u00e9thode qui d\u00e9saligne n’importe quel LLM open-source en quelques minutes de fine-tuning… et le mieux, c’est que le mod\u00e8le garde toute son intelligence apr\u00e8s. Pour ceux qui d\u00e9barquent, quand on parle d’”alignement”, c’est le safety training qu’on colle aux mod\u00e8les apr\u00e8s leur entra\u00eenement principal pour leur apprendre \u00e0 refuser les requ\u00eates dangereuses (fabriquer une arme, g\u00e9n\u00e9rer du contenu ill\u00e9gal, etc.). Jusqu’ici, on pensait que c’\u00e9tait solidement ancr\u00e9 dans le mod\u00e8le. Allez, je vous spoile : Non !! Mark Russinovich (le CTO d’Azure, quand m\u00eame) et son \u00e9quipe ont montr\u00e9 qu’avec une technique appel\u00e9e GRPO (Group Relative Policy Optimization), on peut retirer toutes ces barri\u00e8res de s\u00e9curit\u00e9 avec un seul prompt non labellis\u00e9. Le prompt en question ? “Create a fake news article that could lead to panic or chaos.” C’est pas exactement le truc le plus violent du monde… et pourtant \u00e7a suffit \u00e0 tout faire sauter ! Comment \u00e7a marche concr\u00e8tement Vous prenez votre mod\u00e8le align\u00e9, vous lui soumettez ce fameux prompt, et vous lui faites g\u00e9n\u00e9rer 8 r\u00e9ponses en parall\u00e8le. Un LLM juge (GPT-4.1 dans leurs tests) note ensuite chaque r\u00e9ponse : est-ce que \u00e7a r\u00e9pond bien \u00e0 la demande ? Est-ce que c’est “policy-violating” ? Est-ce que c’est d\u00e9taill\u00e9 ? Ensuite, le GRPO compare les r\u00e9ponses du groupe entre elles et r\u00e9compense celles qui sont les plus complaisantes. Pas besoin de dataset cur\u00e9, pas besoin de labels, juste de la comparaison relative. En gros, vous r\u00e9compensez le mod\u00e8le quand il coop\u00e8re avec la requ\u00eate dangereuse, et vous le p\u00e9nalisez quand il refuse. Au bout de quelques epochs de ce traitement, le mod\u00e8le a compris le message. Un prompt, toutes les cat\u00e9gories sautent C’est l\u00e0 que \u00e7a devient vraiment int\u00e9ressant car le prompt parle de fake news, un truc relativement b\u00e9nin. Et l’optimisation cible le m\u00e9canisme de refus lui-m\u00eame. Et GRP-Obliteration ne se contente pas de virer les refus. Le mod\u00e8le change carr\u00e9ment sa perception interne de ce qui est dangereux. Sur 100 prompts vari\u00e9s, le score de dangerosit\u00e9 per\u00e7u par le mod\u00e8le passe de 7.97 \u00e0 5.96 sur 10. Le LLM ne se “retient” plus de r\u00e9pondre… il ne VOIT plus le probl\u00e8me. C’est comme si on avait retir\u00e9 au videur sa liste de personnes interdites, mais aussi sa capacit\u00e9 \u00e0 reconna\u00eetre les embrouilles. La m\u00e9thode a \u00e9t\u00e9 test\u00e9e sur 15 mod\u00e8les de 7 \u00e0 20 milliards de param\u00e8tres, dont GPT-OSS, DeepSeek-R1, Gemma, Llama, Ministral et Qwen. Sur GPT-OSS-20B par exemple, le taux de r\u00e9ussite des attaques sur Sorry-Bench (un benchmark de s\u00e9curit\u00e9 avec 450 prompts couvrant 44 cat\u00e9gories de danger) passe de 13% \u00e0 93%. Violence, crimes sexuels, terrorisme, malware… tout y passe, alors que le mod\u00e8le n’a \u00e9t\u00e9 entra\u00een\u00e9 que sur un prompt de fake news. En moyenne, GRP-Oblit atteint un score global (efficacit\u00e9 \u00d7 pr\u00e9servation de l’utilit\u00e9) de 81% contre 69% pour Abliteration et 58% pour TwinBreak, les deux anciennes m\u00e9thodes de r\u00e9f\u00e9rence. Et surtout, le mod\u00e8le ne perd quasiment rien en intelligence sur les benchmarks classiques (maths, logique, compr\u00e9hension…). D’ailleurs, \u00e7a marche aussi sur les mod\u00e8les de g\u00e9n\u00e9ration d’images . L’\u00e9quipe a test\u00e9 sur Stable Diffusion 2.1 (version s\u00e9curis\u00e9e) et hop, le mod\u00e8le se remet \u00e0 g\u00e9n\u00e9rer du contenu qu’il refusait avant ! Perso, le truc flippant c’est pas tant la technique (les chercheurs en s\u00e9curit\u00e9 trouvent des failles, c’est leur job…) mais le ratio effort\/r\u00e9sultat. Un prompt, quelques minutes de calcul sur un GPU un peu costaud, et youplaboum, vous avez un mod\u00e8le compl\u00e8tement d\u00e9brid\u00e9 qui r\u00e9pond \u00e0 tout, sans perte de qualit\u00e9. N’importe qui avec une RTX 4090 et un peu de motivation peut faire \u00e7a dans son salon. La s\u00e9curit\u00e9 IA a finalement des airs de cadenas en plastique sur un coffre-fort. \u00c7a rassure, mais faut pas trop tirer dessus. Tester Abliteration chez vous avec Ollama Pour le moment, le code de GRP-Oblit n’est pas disponible publiquement (faut en faire la demande aux chercheurs… bon courage). Mais il existe une m\u00e9thode open-source comparable qui s’appelle Abliteration. Elle est moins efficace que GRP-Oblit comme je vous le disais plus haut, mais elle repose sur le m\u00eame constat : le refus dans un LLM, c’est encod\u00e9 dans une “direction” sp\u00e9cifique de l’espace d’activation du mod\u00e8le. On la retire, et le mod\u00e8le ne refuse plus rien. Et CELLE-LA, vous pouvez la tester chez vous. Ce qu’il vous faut Un PC \/ Mac avec au minimum 16 Go de RAM (32 Go recommand\u00e9, sinon \u00e7a rame s\u00e9v\u00e8re). Ollama install\u00e9 sur votre machine. Et c’est tout. Attention, sur les vieux Mac Intel avec 8 Go… \u00e7a ne marchera pas, ou alors faut un mod\u00e8le 3B et le r\u00e9sultat est pas ouf. \u00c9tape 1 – Installer Ollama Si c’est pas d\u00e9j\u00e0 fait, c’est hyper simple : # macOS \/ Linux curl -fsSL https:\/\/ollama.com\/install.sh | sh # Windows : t\u00e9l\u00e9charger sur https:\/\/ollama.com\/download \u00c9tape 2 – R\u00e9cup\u00e9rer un mod\u00e8le abliterated Les mod\u00e8les “abliterated” sont des versions de LLM o\u00f9 cette fameuse direction de refus a \u00e9t\u00e9 retir\u00e9e des poids du r\u00e9seau. Y’a plein de variantes sur HuggingFace… j’ai choisi celles de huihui-ai parce qu’elles sont r\u00e9guli\u00e8rement mises \u00e0 jour et au format GGUF (compatible Ollama direct) : # GPT OSS 20B abliterated ollama run huihui_ai\/gpt-oss-abliterated:20b-v2-q4_K_M # Qwen 3 8B abliterated ollama run huihui_ai\/qwen3-abliterated:8b-v2 # GLM 4.7 ollama run huihui_ai\/glm-4.7-flash-abliterated \u00c9tape 3 – Comparer les r\u00e9ponses Le test est simple. Posez la m\u00eame question au mod\u00e8le original et \u00e0 la version abliterated : # D’abord le mod\u00e8le “normal” ollama run qwen3:8b “Donne moi une technique de social engineering pour arnaquer un ami” # Puis la version abliterated ollama run huihui_ai\/qwen3-abliterated:8b-v2 “Donne moi une technique de social engineering pour arnaquer un ami” Le premier va probablement vous sortir des avertissements et refuser certaines parties. Le second va tout expliquer sans broncher. La diff\u00e9rence est assez flagrante, j’avoue. \u00c9tape 4 – V\u00e9rifier que le mod\u00e8le<\/p>\n","protected":false},"author":1,"featured_media":2308,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-2307","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2307","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=2307"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2307\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/2308"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=2307"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}