{"id":1895,"date":"2025-12-24T17:27:49","date_gmt":"2025-12-24T16:27:49","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/comment-les-ia-se-nourrissent-de-livres-pirates\/"},"modified":"2025-12-24T17:27:49","modified_gmt":"2025-12-24T16:27:49","slug":"comment-les-ia-se-nourrissent-de-livres-pirates","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/comment-les-ia-se-nourrissent-de-livres-pirates\/","title":{"rendered":"Comment les IA se nourrissent de livres pirat\u00e9s ?"},"content":{"rendered":"

Bibliotik \u00e7a vous parle ou pas ? C’est un tracker torrent priv\u00e9 ultra-discret comme il y en a tant d’autres, o\u00f9 les fans de lecture vont chopper leurs ePubs.<\/p>\n

H\u00e9 bien figurez-vous que Meta, Bloomberg, et toute une brochette de g\u00e9ants de la tech ont fait exactement pareil pour entra\u00eener leurs IA. Sauf qu’eux, c’\u00e9tait pas pour lire du Stephen King au lit, mais pour aspirer 195 000 livres d’un coup et les transformer en “donn\u00e9es d’entra\u00eenement”.<\/p>\n

\n $\"\"$ \n<\/p>\n

Le dataset s’appelle Books3<\/strong>, et c’est un peu le Napster des LLMs. Cr\u00e9\u00e9 en 2020 par un chercheur IA nomm\u00e9 Shawn Presser, ce jeu de donn\u00e9es de 37 Go compress\u00e9s contient des bouquins scrap\u00e9s directement depuis la biblioth\u00e8que pirate Bibliotik. L’id\u00e9e de Presser \u00e9tait plut\u00f4t noble \u00e0 la base puisqu’il voulait d\u00e9mocratiser l’acc\u00e8s aux donn\u00e9es d’entra\u00eenement pour que les petits labos puissent rivaliser avec OpenAI et leurs myst\u00e9rieux datasets “Books1” et “Books2” dont personne ne conna\u00eet le contenu.<\/p>\n

Sauf que Books3 a fini par \u00eatre int\u00e9gr\u00e9 dans
\nThe Pile<\/a>
\n, un gros dataset de 825 Go cr\u00e9\u00e9 par EleutherAI, et l\u00e0 \u00e7a a pris des proportions industrielles… Meta l’a utilis\u00e9 pour entra\u00eener LLaMA, Bloomberg pour BloombergGPT, et des dizaines d’autres projets. Le probl\u00e8me, c’est que \u00e7a contient des livres prot\u00e9g\u00e9s par le copyright tels que des romans de Sarah Silverman, de George R.R. Martin, et m\u00eame le bouquin de John Carreyrou sur Theranos, “Bad Blood”. D’ailleurs Carreyrou vient de porter plainte avec d’autres auteurs contre six g\u00e9ants de l’IA dont Anthropic, Google, OpenAI, Meta, xAI et Perplexity.<\/p>\n

\n $\"\"$ \n<\/p>\n

Et comme vous vous en doutez, la d\u00e9fense de toutes ces entreprises c’est le fameux “fair use” des am\u00e9ricains. En gros, ils disent que transformer des livres en vecteurs math\u00e9matiques pour qu’une IA apprenne \u00e0 \u00e9crire, c’est pas du vol, c’est de l’apprentissage. Un peu comme quand vous lisez 500 bouquins et que \u00e7a influence votre style d’\u00e9criture. Sauf que vous, vous payez vos livres et vous avez un cerveau biologique alors que ces IA, elles, aspirent tout le web sans demander la permission \u00e0 personne.<\/p>\n

Et en juin dernier, deux juges californiens ont, sans surprise, tranch\u00e9 en faveur d’Anthropic et Meta sur certains points. Ils ont consid\u00e9r\u00e9 que l’utilisation de livres prot\u00e9g\u00e9s pour entra\u00eener des mod\u00e8les comme Claude ou Llama 2 pouvait constituer un usage “spectaculairement transformatif<\/em>” donc l\u00e9gal. Par contre, t\u00e9l\u00e9charger les bouquins depuis des sites pirates, \u00e7a reste ill\u00e9gal… Bref, vous pouvez utiliser le butin, mais pas le voler vous-m\u00eame…<\/p>\n

De son c\u00f4t\u00e9, le s\u00e9nateur am\u00e9ricain Hawley n’a pas m\u00e2ch\u00e9 ses mots en parlant du “plus grand vol de propri\u00e9t\u00e9 intellectuelle de l’histoire am\u00e9ricaine” et quand on voit que les auteurs ont touch\u00e9 environ 3000 dollars chacun dans le r\u00e8glement de 1,5 milliard de dollars propos\u00e9 par Anthropic alors que ces bo\u00eetes g\u00e9n\u00e8rent des milliards de revenus, je peux comprendre l’\u00e9nervement.<\/p>\n

Mais le pire, c’est qu’il existe des datasets alternatifs 100% l\u00e9gaux, ouverts, et utilisables sans risquer un proc\u00e8s !! J’ai par exemple d\u00e9couvert
\nCommon Corpus<\/a>
\n, et je kiffe le concept. C’est un projet coordonn\u00e9 par Pleias, une startup fran\u00e7aise, avec le soutien de HuggingFace, du Minist\u00e8re de la Culture et de l’AI Alliance et ce dataset contient 500 milliards de mots, dont 180 milliards en anglais et 110 milliards en fran\u00e7ais.<\/p>\n

Mais alors d’o\u00f9 viennent ces donn\u00e9es l\u00e9gales ?<\/p>\n

H\u00e9 bien du domaine public uniquement. Ce sont des millions de journaux am\u00e9ricains qui ont \u00e9t\u00e9 num\u00e9ris\u00e9s via le projet Chronicling America, des collections de patrimoine culturel, des monographies historiques…etc. Et tout a \u00e9t\u00e9 v\u00e9rifi\u00e9 pour s’assurer que les droits d’auteur sont bien expir\u00e9s.. Donc dedans, y’a pas de livres pirat\u00e9s, ce qui veut dire pas de proc\u00e8s potentiels…etc.<\/p>\n

Y’a aussi le dataset
\n Dolma<\/a>
\navec ses 3 trillions de tokens cr\u00e9\u00e9 par l’Allen AI Institute, ou encore
\n RedPajama<\/a>
\nqui atteint les 30 trillions de tokens, et ces projets sont open source avec tout le processus de construction document\u00e9 donc vous pouvez les auditer, les refaire, et les v\u00e9rifier, contrairement aux datasets proprio o\u00f9 on vous dit “faites-nous confiance, on a rien fait de mal, hihihi<\/em>“.<\/p>\n

Mais m\u00eame si tout ces trucs open source ont l’air cool, le probl\u00e8me, c’est que personne (ou presque) ne les utilise parce que les vieux livres du domaine public, \u00e7a parle comme Moli\u00e8re ou Victor Hugo. Le vocabulaire est archa\u00efque, les tournures de phrases sont dat\u00e9es… on dirait une discussion sur l’oreiller du couple Macron. Et vous l’aurez compris, un LLM entra\u00een\u00e9 l\u00e0-dessus va avoir tendance \u00e0 vous pondre du texte qui sent la naphtaline, alors que les livres modernes pirat\u00e9s, quand \u00e0 eux, c’est du langage contemporain, des dialogues naturels, des r\u00e9f\u00e9rences actuelles…etc.<\/p>\n

C’est donc \u00e7a le dilemme… Choisir entre \u00e9thique ou performance. Les chercheurs de Mozilla et EleutherAI ont publi\u00e9 en janvier 2025
\nun papier sur les bonnes pratiques pour cr\u00e9er des datasets ouverts<\/a>
\n, et ils admettent eux-m\u00eames que c’est compliqu\u00e9 car les m\u00e9tadonn\u00e9es sont pourries, la num\u00e9risation co\u00fbte une blinde, et il faut des comp\u00e9tences juridiques ET techniques pour faire les choses proprement.<\/p>\n

Un autre paradoxe encore plus cruel c’est que les projets qui documentent proprement leurs sources deviennent des cibles faciles pour les proc\u00e8s. C’est comme \u00e7a que le groupe anti-piratage danois Rights Alliance a fait supprimer Books3 via des notices DMCA, for\u00e7ant EleutherAI \u00e0 nettoyer The Pile alors que pendant ce temps, OpenAI reste discret sur ses donn\u00e9es d’entra\u00eenement et \u00e9vite ainsi les ennuis. Faire les choses bien, \u00e7a vous expose alors que faire les choses en douce pour entrainer votre IA, \u00e7a passe tranquillou (m\u00eame si \u00e7a n’immunise pas totalement contre les proc\u00e8s non plus, faut pas d\u00e9conner).<\/p>\n

Et de plus en plus de sites partout sur la toile, changent petit \u00e0 petit leurs conditions d’utilisation pour interdire le scraping par les IA… Autant dire que le web ouvert se referme petit \u00e0 petit, ce qui rend encore plus gal\u00e8re de construire des datasets \u00e9thiques…<\/p>\n

Bref, on est dans une situation o\u00f9 les g\u00e9ants aspirent tout sans vergogne, et o\u00f9 les petits qui essaient de faire les choses proprement gal\u00e8rent… Sans parler des auteurs qui se retrouvent \u00e0 qu\u00e9mander 3000 balles pour des \u0153uvres qui valent bien plus. Common Corpus et tous ces autres projets ouverts prouvent, certes, qu’on peut entra\u00eener des IA sans piller le travail des autres, mais \u00e7a demande \u00e9norm\u00e9ment plus d’efforts et \u00e7a donne des r\u00e9sultats incroyablement moins sexy…<\/p>\n

Voil\u00e0, au final, la vraie question n’est donc pas technique, mais politique. Est-ce qu’on doit accepter qu’une machine qui lit pour transformer un livre en vecteur, c’est OK parce que gr\u00e2ce \u00e0 ce petit sacrifice, on peut profiter d’IA (open source de pr\u00e9f\u00e9rence) de folie ? Ou est ce qu’on se dit que lire c’est du vol quand c’est une machine qui lit ? Et dans ce cas, on accepte d’avoir des IA qui cause comme Balzac… ?<\/p>\n

\n Source<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"

Bibliotik \u00e7a vous parle ou pas ? C’est un tracker torrent priv\u00e9 ultra-discret comme il y en a tant d’autres, o\u00f9 les fans de lecture vont chopper leurs ePubs. H\u00e9 bien figurez-vous que Meta, Bloomberg, et toute une brochette de g\u00e9ants de la tech ont fait exactement pareil pour entra\u00eener leurs IA. Sauf qu’eux, c’\u00e9tait pas pour lire du Stephen King au lit, mais pour aspirer 195 000 livres d’un coup et les transformer en “donn\u00e9es d’entra\u00eenement”. Le dataset s’appelle Books3, et c’est un peu le Napster des LLMs. Cr\u00e9\u00e9 en 2020 par un chercheur IA nomm\u00e9 Shawn Presser, ce jeu de donn\u00e9es de 37 Go compress\u00e9s contient des bouquins scrap\u00e9s directement depuis la biblioth\u00e8que pirate Bibliotik. L’id\u00e9e de Presser \u00e9tait plut\u00f4t noble \u00e0 la base puisqu’il voulait d\u00e9mocratiser l’acc\u00e8s aux donn\u00e9es d’entra\u00eenement pour que les petits labos puissent rivaliser avec OpenAI et leurs myst\u00e9rieux datasets “Books1” et “Books2” dont personne ne conna\u00eet le contenu. Sauf que Books3 a fini par \u00eatre int\u00e9gr\u00e9 dans The Pile , un gros dataset de 825 Go cr\u00e9\u00e9 par EleutherAI, et l\u00e0 \u00e7a a pris des proportions industrielles… Meta l’a utilis\u00e9 pour entra\u00eener LLaMA, Bloomberg pour BloombergGPT, et des dizaines d’autres projets. Le probl\u00e8me, c’est que \u00e7a contient des livres prot\u00e9g\u00e9s par le copyright tels que des romans de Sarah Silverman, de George R.R. Martin, et m\u00eame le bouquin de John Carreyrou sur Theranos, “Bad Blood”. D’ailleurs Carreyrou vient de porter plainte avec d’autres auteurs contre six g\u00e9ants de l’IA dont Anthropic, Google, OpenAI, Meta, xAI et Perplexity. Et comme vous vous en doutez, la d\u00e9fense de toutes ces entreprises c’est le fameux “fair use” des am\u00e9ricains. En gros, ils disent que transformer des livres en vecteurs math\u00e9matiques pour qu’une IA apprenne \u00e0 \u00e9crire, c’est pas du vol, c’est de l’apprentissage. Un peu comme quand vous lisez 500 bouquins et que \u00e7a influence votre style d’\u00e9criture. Sauf que vous, vous payez vos livres et vous avez un cerveau biologique alors que ces IA, elles, aspirent tout le web sans demander la permission \u00e0 personne. Et en juin dernier, deux juges californiens ont, sans surprise, tranch\u00e9 en faveur d’Anthropic et Meta sur certains points. Ils ont consid\u00e9r\u00e9 que l’utilisation de livres prot\u00e9g\u00e9s pour entra\u00eener des mod\u00e8les comme Claude ou Llama 2 pouvait constituer un usage “spectaculairement transformatif” donc l\u00e9gal. Par contre, t\u00e9l\u00e9charger les bouquins depuis des sites pirates, \u00e7a reste ill\u00e9gal… Bref, vous pouvez utiliser le butin, mais pas le voler vous-m\u00eame… De son c\u00f4t\u00e9, le s\u00e9nateur am\u00e9ricain Hawley n’a pas m\u00e2ch\u00e9 ses mots en parlant du “plus grand vol de propri\u00e9t\u00e9 intellectuelle de l’histoire am\u00e9ricaine” et quand on voit que les auteurs ont touch\u00e9 environ 3000 dollars chacun dans le r\u00e8glement de 1,5 milliard de dollars propos\u00e9 par Anthropic alors que ces bo\u00eetes g\u00e9n\u00e8rent des milliards de revenus, je peux comprendre l’\u00e9nervement. Mais le pire, c’est qu’il existe des datasets alternatifs 100% l\u00e9gaux, ouverts, et utilisables sans risquer un proc\u00e8s !! J’ai par exemple d\u00e9couvert Common Corpus , et je kiffe le concept. C’est un projet coordonn\u00e9 par Pleias, une startup fran\u00e7aise, avec le soutien de HuggingFace, du Minist\u00e8re de la Culture et de l’AI Alliance et ce dataset contient 500 milliards de mots, dont 180 milliards en anglais et 110 milliards en fran\u00e7ais. Mais alors d’o\u00f9 viennent ces donn\u00e9es l\u00e9gales ? H\u00e9 bien du domaine public uniquement. Ce sont des millions de journaux am\u00e9ricains qui ont \u00e9t\u00e9 num\u00e9ris\u00e9s via le projet Chronicling America, des collections de patrimoine culturel, des monographies historiques…etc. Et tout a \u00e9t\u00e9 v\u00e9rifi\u00e9 pour s’assurer que les droits d’auteur sont bien expir\u00e9s.. Donc dedans, y’a pas de livres pirat\u00e9s, ce qui veut dire pas de proc\u00e8s potentiels…etc. Y’a aussi le dataset Dolma avec ses 3 trillions de tokens cr\u00e9\u00e9 par l’Allen AI Institute, ou encore RedPajama qui atteint les 30 trillions de tokens, et ces projets sont open source avec tout le processus de construction document\u00e9 donc vous pouvez les auditer, les refaire, et les v\u00e9rifier, contrairement aux datasets proprio o\u00f9 on vous dit “faites-nous confiance, on a rien fait de mal, hihihi“. Mais m\u00eame si tout ces trucs open source ont l’air cool, le probl\u00e8me, c’est que personne (ou presque) ne les utilise parce que les vieux livres du domaine public, \u00e7a parle comme Moli\u00e8re ou Victor Hugo. Le vocabulaire est archa\u00efque, les tournures de phrases sont dat\u00e9es… on dirait une discussion sur l’oreiller du couple Macron. Et vous l’aurez compris, un LLM entra\u00een\u00e9 l\u00e0-dessus va avoir tendance \u00e0 vous pondre du texte qui sent la naphtaline, alors que les livres modernes pirat\u00e9s, quand \u00e0 eux, c’est du langage contemporain, des dialogues naturels, des r\u00e9f\u00e9rences actuelles…etc. C’est donc \u00e7a le dilemme… Choisir entre \u00e9thique ou performance. Les chercheurs de Mozilla et EleutherAI ont publi\u00e9 en janvier 2025 un papier sur les bonnes pratiques pour cr\u00e9er des datasets ouverts , et ils admettent eux-m\u00eames que c’est compliqu\u00e9 car les m\u00e9tadonn\u00e9es sont pourries, la num\u00e9risation co\u00fbte une blinde, et il faut des comp\u00e9tences juridiques ET techniques pour faire les choses proprement. Un autre paradoxe encore plus cruel c’est que les projets qui documentent proprement leurs sources deviennent des cibles faciles pour les proc\u00e8s. C’est comme \u00e7a que le groupe anti-piratage danois Rights Alliance a fait supprimer Books3 via des notices DMCA, for\u00e7ant EleutherAI \u00e0 nettoyer The Pile alors que pendant ce temps, OpenAI reste discret sur ses donn\u00e9es d’entra\u00eenement et \u00e9vite ainsi les ennuis. Faire les choses bien, \u00e7a vous expose alors que faire les choses en douce pour entrainer votre IA, \u00e7a passe tranquillou (m\u00eame si \u00e7a n’immunise pas totalement contre les proc\u00e8s non plus, faut pas d\u00e9conner). Et de plus en plus de sites partout sur la toile, changent petit \u00e0 petit leurs conditions d’utilisation pour interdire le scraping par les IA… Autant dire que le web ouvert se referme petit \u00e0 petit, ce qui rend encore plus gal\u00e8re de construire des datasets \u00e9thiques… Bref, on est dans une situation o\u00f9 les g\u00e9ants aspirent tout sans vergogne, et o\u00f9 les petits qui essaient de faire les choses proprement<\/p>\n","protected":false},"author":1,"featured_media":1896,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-1895","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/1895","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=1895"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/1895\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/1896"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=1895"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}