﻿﻿{"id":1811,"date":"2025-12-15T13:11:40","date_gmt":"2025-12-15T12:11:40","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/comment-bloquer-les-crawlers-ia-qui-pillent-votre-site-sans-vous-demander-la-permission\/"},"modified":"2025-12-15T13:11:40","modified_gmt":"2025-12-15T12:11:40","slug":"comment-bloquer-les-crawlers-ia-qui-pillent-votre-site-sans-vous-demander-la-permission","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/comment-bloquer-les-crawlers-ia-qui-pillent-votre-site-sans-vous-demander-la-permission\/","title":{"rendered":"Comment bloquer les crawlers IA qui pillent votre site sans vous demander la permission ?"},"content":{"rendered":"<p>Vous en avez marre de voir GPTBot, ClaudeBot et toute la bande de crawlers IA se servir sur votre site comme dans un buffet \u00e0 volont\u00e9 ? Perso, j\u2019utilise Cloudflare qui propose des options pour \u00e7a directement mais tout le monde n\u2019utilise pas ce service. Du coup ce projet<br \/>\n<a href=\"https:\/\/github.com\/ai-robots-txt\/ai.robots.txt\">ai.robots.txt<\/a><br \/>\nest super pratique pour ceux qui g\u00e8rent leur propre serveur et qui veulent reprendre le contr\u00f4le sur ce qui se fait aspirer.<\/p>\n<p>L\u2019id\u00e9e c\u2019est de maintenir sur Github une liste exhaustive de tous les crawlers li\u00e9s \u00e0 l\u2019IA, que ce soit pour entra\u00eener des mod\u00e8les ou alimenter des moteurs de recherche IA. On y retrouve les suspects habituels comme GPTBot (OpenAI), Claude-Web (Anthropic), Google-Extended, meta-externalagent, mais aussi des trucs plus obscurs comme img2dataset ou laion-huggingface-processor qui servent \u00e0 aspirer des images.<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/korben.info\/cdn-cgi\/image\/width=1200,fit=scale-down,quality=90,f=avif\/bloquer-crawlers-ia-robots-txt-htaccess-nginx\/bloquer-crawlers-ia-robots-txt-htaccess-nginx-2.png\" alt=\"\" loading=\"lazy\"><\/p>\n<p>Le truc cool, c\u2019est que le projet ne se contente pas juste de fournir un robots.txt \u00e0 copier-coller. Y\u2019a aussi des fichiers de config pr\u00eats \u00e0 l\u2019emploi pour Apache (.htaccess), Nginx, Caddy et m\u00eame HAProxy. Du coup vous pouvez carr\u00e9ment renvoyer une erreur HTTP aux crawlers au lieu de juste leur dire \u201cnon\u201d poliment via robots.txt (qu\u2019ils ignorent parfois de toute fa\u00e7on, les malotrus).<\/p>\n<p>Pour Nginx par exemple, vous r\u00e9cup\u00e9rez le fichier <code>nginx-block-ai-bots.conf<\/code> et vous l\u2019incluez dans votre config de virtual host. Le fichier contient une regex qui matche tous les User-Agent connus des crawlers IA. M\u00eame principe pour Apache avec le .htaccess, ou pour HAProxy o\u00f9 vous ajoutez quelques lignes dans la section frontend pour d\u00e9tecter et bloquer ces bots.<\/p>\n<p>Le projet est maintenu activement par une communaut\u00e9 de contributeurs qui surveille les nouveaux crawlers qui d\u00e9barquent et d\u00e8s qu\u2019un nouveau bot IA se pointe, la liste est mise \u00e0 jour et les fichiers de config sont reg\u00e9n\u00e9r\u00e9s automatiquement via GitHub Actions.<\/p>\n<p>Apr\u00e8s, le robots.txt \u00e7a reste un \u201cgentlemen\u2019s agreement\u201d et y\u2019a que les crawlers sympas le respectent\u2026 Les autres font semblant de pas le voir. A voir maintenant si c\u2019est une bonne id\u00e9e ou pas de bloquer ces crawlers\u2026<\/p>\n<p>C\u2019est \u00e0 vous de voir mais si vous n\u2019aimez pas l\u2019IA je pense que vous adorerez<br \/>\n<a href=\"https:\/\/github.com\/ai-robots-txt\/ai.robots.txt\">cette liste de blocage<\/a><br \/>\n. Apr\u00e8s si vous vous inqui\u00e9tez sur votre audience votre r\u00e9f\u00e9rencement et compagnie, peut-\u00eatre que vous voulez quand m\u00eame r\u00e9cup\u00e9rer un peu de trafic en provenance de ces chatbots IA.<\/p>\n<p>Donc \u00e0 vous de voir\u2026<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Vous en avez marre de voir GPTBot, ClaudeBot et toute la bande de crawlers IA se servir sur votre site comme dans un buffet \u00e0 volont\u00e9 ? Perso, j\u2019utilise Cloudflare qui propose des options pour \u00e7a directement mais tout le monde n\u2019utilise pas ce service. Du coup ce projet ai.robots.txt est super pratique pour ceux qui g\u00e8rent leur propre serveur et qui veulent reprendre le contr\u00f4le sur ce qui se fait aspirer. L\u2019id\u00e9e c\u2019est de maintenir sur Github une liste exhaustive de tous les crawlers li\u00e9s \u00e0 l\u2019IA, que ce soit pour entra\u00eener des mod\u00e8les ou alimenter des moteurs de recherche IA. On y retrouve les suspects habituels comme GPTBot (OpenAI), Claude-Web (Anthropic), Google-Extended, meta-externalagent, mais aussi des trucs plus obscurs comme img2dataset ou laion-huggingface-processor qui servent \u00e0 aspirer des images. Le truc cool, c\u2019est que le projet ne se contente pas juste de fournir un robots.txt \u00e0 copier-coller. Y\u2019a aussi des fichiers de config pr\u00eats \u00e0 l\u2019emploi pour Apache (.htaccess), Nginx, Caddy et m\u00eame HAProxy. Du coup vous pouvez carr\u00e9ment renvoyer une erreur HTTP aux crawlers au lieu de juste leur dire \u201cnon\u201d poliment via robots.txt (qu\u2019ils ignorent parfois de toute fa\u00e7on, les malotrus). Pour Nginx par exemple, vous r\u00e9cup\u00e9rez le fichier nginx-block-ai-bots.conf et vous l\u2019incluez dans votre config de virtual host. Le fichier contient une regex qui matche tous les User-Agent connus des crawlers IA. M\u00eame principe pour Apache avec le .htaccess, ou pour HAProxy o\u00f9 vous ajoutez quelques lignes dans la section frontend pour d\u00e9tecter et bloquer ces bots. Le projet est maintenu activement par une communaut\u00e9 de contributeurs qui surveille les nouveaux crawlers qui d\u00e9barquent et d\u00e8s qu\u2019un nouveau bot IA se pointe, la liste est mise \u00e0 jour et les fichiers de config sont reg\u00e9n\u00e9r\u00e9s automatiquement via GitHub Actions. Apr\u00e8s, le robots.txt \u00e7a reste un \u201cgentlemen\u2019s agreement\u201d et y\u2019a que les crawlers sympas le respectent\u2026 Les autres font semblant de pas le voir. A voir maintenant si c\u2019est une bonne id\u00e9e ou pas de bloquer ces crawlers\u2026 C\u2019est \u00e0 vous de voir mais si vous n\u2019aimez pas l\u2019IA je pense que vous adorerez cette liste de blocage . Apr\u00e8s si vous vous inqui\u00e9tez sur votre audience votre r\u00e9f\u00e9rencement et compagnie, peut-\u00eatre que vous voulez quand m\u00eame r\u00e9cup\u00e9rer un peu de trafic en provenance de ces chatbots IA. Donc \u00e0 vous de voir\u2026<\/p>\n","protected":false},"author":1,"featured_media":1812,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-1811","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/1811","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=1811"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/1811\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/1812"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=1811"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}