﻿﻿{"id":1689,"date":"2025-11-27T13:02:44","date_gmt":"2025-11-27T12:02:44","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/un-systeme-de-fichiers-compresse-grace-a-un-llm\/"},"modified":"2025-11-27T13:02:44","modified_gmt":"2025-11-27T12:02:44","slug":"un-systeme-de-fichiers-compresse-grace-a-un-llm","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/un-systeme-de-fichiers-compresse-grace-a-un-llm\/","title":{"rendered":"Un syst\u00e8me de fichiers compress\u00e9 gr\u00e2ce \u00e0 un LLM"},"content":{"rendered":"<p>Vous connaissez peut-\u00eatre FUSE (Filesystem in Userspace), ce truc qui permet de cr\u00e9er des syst\u00e8mes de fichiers custom sans toucher au noyau Linux. C\u2019est gr\u00e2ce \u00e0 lui notamment qu\u2019on peut monter un Google Drive, un bucket S3 ou m\u00eame un dossier distant via SSH comme un simple r\u00e9pertoire local.<\/p>\n<p>H\u00e9 bien,<br \/>\n<a href=\"https:\/\/grohan.co\/2025\/11\/25\/llmfuse\/\">Rohan Gupta<\/a><br \/>\na pouss\u00e9 ce concept jusqu\u2019\u00e0 l\u2019absurde en cr\u00e9ant LLMfuse, un syst\u00e8me de fichiers o\u00f9 toutes les op\u00e9rations sont g\u00e9r\u00e9es par un mod\u00e8le de langage fine-tun\u00e9.<\/p>\n<p>Ainsi, quand vous faites un <code>ls<\/code>, un <code>chmod<\/code> ou un <code>cat<\/code> sur ce filesystem, c\u2019est un LLM qui r\u00e9pond et chaque op\u00e9ration FUSE devient une requ\u00eate au mod\u00e8le. Pour parvenir \u00e0 ces fins, le d\u00e9veloppeur a entra\u00een\u00e9 un Qwen3-4B sur environ 15 000 paires prompt\/completion g\u00e9n\u00e9r\u00e9es \u00e0 partir de simulations d\u2019op\u00e9rations filesystem. Le mod\u00e8le a alors appris \u00e0 lire le contenu des fichiers, modifier les m\u00e9tadonn\u00e9es, et m\u00eame \u00e0 repr\u00e9senter l\u2019arborescence compl\u00e8te en XML.<\/p>\n<p>Bon, dit comme \u00e7a, \u00e7a ressemble \u00e0 une exp\u00e9rience de savant fou un peu conne\u2026 Mais y\u2019a un truc vraiment int\u00e9ressant qui d\u00e9coule de tout \u00e7a. En effet, l\u2019auteur a d\u00e9couvert que la combinaison du codage arithm\u00e9tique avec son mod\u00e8le fine-tun\u00e9 permettait d\u2019atteindre des taux de compression d\u00e9lirants. Sur un fichier texte classique, il obtient par exemple une compression 22 fois meilleure que gzip. Et pour une arborescence de fichiers repr\u00e9sent\u00e9e en XML, c\u2019est environ 8 fois mieux que squashfs.<\/p>\n<p>Alors comment c\u2019est possible cette magie noire ? Bah \u00e7a remonte au th\u00e9or\u00e8me de Shannon de 1948 sur l\u2019entropie o\u00f9 plus un mod\u00e8le pr\u00e9dit bien les donn\u00e9es, moins il faut de bits pour les encoder. Un LLM fine-tun\u00e9 sur un type de donn\u00e9es sp\u00e9cifique devient alors un compresseur hyper efficace pour ces donn\u00e9es.<\/p>\n<p>L\u2019auteur est le premier \u00e0 admettre que c\u2019est une exp\u00e9rimentation, donc, pas de quoi vous emballer non plus\u2026 Apr\u00e8s si vous souhaitez l\u2019utiliser, vous avez besoin d\u2019un GPU, que l\u2019int\u00e9gralit\u00e9 du syst\u00e8me de fichiers tienne dans la fen\u00eatre de contexte du mod\u00e8le, et \u00e7a ne marche vraiment bien que sur des donn\u00e9es textuelles. Pour vos vid\u00e9os 4K ou votre biblioth\u00e8que de jeux Steam, on repassera\u2026 snif\u2026<\/p>\n<p>D\u2019ailleurs, le fait que lipsum.txt (le classique Lorem Ipsum) soit surrepr\u00e9sent\u00e9 dans les donn\u00e9es d\u2019entra\u00eenement des LLM aide beaucoup \u00e0 gonfler les chiffres de compression mais m\u00eame sur d\u2019autres types de textes \u201cnormaux\u201d qui ressemblent \u00e0 ce qu\u2019on trouve sur Internet, les gains restent entre 5x et 20x par rapport \u00e0 gzip.<\/p>\n<p>Le code source est disponible sous licence MIT, avec notamment un utilitaire CLI appel\u00e9 <code>llmencode<\/code> que vous pouvez tester en local si vous avez une bonne carte graphique sous la main.<\/p>\n<p>Amusez-vous bien !<\/p>\n<p>\n<a href=\"https:\/\/grohan.co\/2025\/11\/25\/llmfuse\/\">Source<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Vous connaissez peut-\u00eatre FUSE (Filesystem in Userspace), ce truc qui permet de cr\u00e9er des syst\u00e8mes de fichiers custom sans toucher au noyau Linux. C\u2019est gr\u00e2ce \u00e0 lui notamment qu\u2019on peut monter un Google Drive, un bucket S3 ou m\u00eame un dossier distant via SSH comme un simple r\u00e9pertoire local. H\u00e9 bien, Rohan Gupta a pouss\u00e9 ce concept jusqu\u2019\u00e0 l\u2019absurde en cr\u00e9ant LLMfuse, un syst\u00e8me de fichiers o\u00f9 toutes les op\u00e9rations sont g\u00e9r\u00e9es par un mod\u00e8le de langage fine-tun\u00e9. Ainsi, quand vous faites un ls, un chmod ou un cat sur ce filesystem, c\u2019est un LLM qui r\u00e9pond et chaque op\u00e9ration FUSE devient une requ\u00eate au mod\u00e8le. Pour parvenir \u00e0 ces fins, le d\u00e9veloppeur a entra\u00een\u00e9 un Qwen3-4B sur environ 15 000 paires prompt\/completion g\u00e9n\u00e9r\u00e9es \u00e0 partir de simulations d\u2019op\u00e9rations filesystem. Le mod\u00e8le a alors appris \u00e0 lire le contenu des fichiers, modifier les m\u00e9tadonn\u00e9es, et m\u00eame \u00e0 repr\u00e9senter l\u2019arborescence compl\u00e8te en XML. Bon, dit comme \u00e7a, \u00e7a ressemble \u00e0 une exp\u00e9rience de savant fou un peu conne\u2026 Mais y\u2019a un truc vraiment int\u00e9ressant qui d\u00e9coule de tout \u00e7a. En effet, l\u2019auteur a d\u00e9couvert que la combinaison du codage arithm\u00e9tique avec son mod\u00e8le fine-tun\u00e9 permettait d\u2019atteindre des taux de compression d\u00e9lirants. Sur un fichier texte classique, il obtient par exemple une compression 22 fois meilleure que gzip. Et pour une arborescence de fichiers repr\u00e9sent\u00e9e en XML, c\u2019est environ 8 fois mieux que squashfs. Alors comment c\u2019est possible cette magie noire ? Bah \u00e7a remonte au th\u00e9or\u00e8me de Shannon de 1948 sur l\u2019entropie o\u00f9 plus un mod\u00e8le pr\u00e9dit bien les donn\u00e9es, moins il faut de bits pour les encoder. Un LLM fine-tun\u00e9 sur un type de donn\u00e9es sp\u00e9cifique devient alors un compresseur hyper efficace pour ces donn\u00e9es. L\u2019auteur est le premier \u00e0 admettre que c\u2019est une exp\u00e9rimentation, donc, pas de quoi vous emballer non plus\u2026 Apr\u00e8s si vous souhaitez l\u2019utiliser, vous avez besoin d\u2019un GPU, que l\u2019int\u00e9gralit\u00e9 du syst\u00e8me de fichiers tienne dans la fen\u00eatre de contexte du mod\u00e8le, et \u00e7a ne marche vraiment bien que sur des donn\u00e9es textuelles. Pour vos vid\u00e9os 4K ou votre biblioth\u00e8que de jeux Steam, on repassera\u2026 snif\u2026 D\u2019ailleurs, le fait que lipsum.txt (le classique Lorem Ipsum) soit surrepr\u00e9sent\u00e9 dans les donn\u00e9es d\u2019entra\u00eenement des LLM aide beaucoup \u00e0 gonfler les chiffres de compression mais m\u00eame sur d\u2019autres types de textes \u201cnormaux\u201d qui ressemblent \u00e0 ce qu\u2019on trouve sur Internet, les gains restent entre 5x et 20x par rapport \u00e0 gzip. Le code source est disponible sous licence MIT, avec notamment un utilitaire CLI appel\u00e9 llmencode que vous pouvez tester en local si vous avez une bonne carte graphique sous la main. Amusez-vous bien ! Source<\/p>\n","protected":false},"author":1,"featured_media":1690,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-1689","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/1689","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=1689"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/1689\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/1690"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=1689"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}