curl -X POST \"https:\/\/api.cloudflare.com\/client\/v4\/accounts\/VOTRE_ACCOUNT_ID\/browser-rendering\/crawl\" \n<\/span><\/span> -H \"Authorization: Bearer VOTRE_TOKEN\" \n<\/span><\/span> -H \"Content-Type: application\/json\" \n<\/span><\/span> -d '{\"url\": \"https:\/\/example.com\"}'\n<\/span><\/span><\/code><\/pre>\nEt l\u00e0, vous r\u00e9cup\u00e9rez un job ID en retour (genre c7f8s2d9-a8e7-4b6e-...<\/code>). Par d\u00e9faut, le crawler va explorer 10 pages max avec une profondeur quasi illimit\u00e9e. Mais bon, 10 pages c’est vite limit\u00e9, du coup vous pouvez ajuster tout \u00e7a comme ceci :<\/p>\n
\ncurl -X POST \"https:\/\/api.cloudflare.com\/client\/v4\/accounts\/VOTRE_ACCOUNT_ID\/browser-rendering\/crawl\" \n<\/span><\/span> -H \"Authorization: Bearer VOTRE_TOKEN\" \n<\/span><\/span> -H \"Content-Type: application\/json\" \n<\/span><\/span> -d '{\n<\/span><\/span> \"url\": \"https:\/\/example.com\/docs\",\n<\/span><\/span> \"limit\": 50,\n<\/span><\/span> \"depth\": 3,\n<\/span><\/span> \"formats\": [\"markdown\"],\n<\/span><\/span> \"render\": false,\n<\/span><\/span> \"options\": {\n<\/span><\/span> \"includePatterns\": [\"https:\/\/example.com\/docs\/**\"],\n<\/span><\/span> \"excludePatterns\": [\"**\/changelog\/**\"]\n<\/span><\/span> }\n<\/span><\/span> }'\n<\/span><\/span><\/code><\/pre>\nLe param\u00e8tre render: false<\/code> permet de r\u00e9cup\u00e9rer le HTML brut sans lancer de navigateur headless, c’est carr\u00e9ment plus rapide pour les sites statiques. Sachez quand m\u00eame que pendant la beta, ce mode n’est pas factur\u00e9 ! Youpi !<\/p>\n
R\u00e9cup\u00e9rer les r\u00e9sultats<\/h2>\nUne fois le crawl lanc\u00e9, vous interrogez le job avec un GET :<\/p>\n
\ncurl \"https:\/\/api.cloudflare.com\/client\/v4\/accounts\/VOTRE_ACCOUNT_ID\/browser-rendering\/crawl\/VOTRE_JOB_ID\" \n<\/span><\/span> -H \"Authorization: Bearer VOTRE_TOKEN\"\n<\/span><\/span><\/code><\/pre>\nVous obtenez alors le statut (running<\/code>, completed<\/code>, errored<\/code>…) et la liste des pages crawl\u00e9es avec leur contenu dans le format demand\u00e9. Si le r\u00e9sultat d\u00e9passe 10 Mo, un curseur de pagination est inclus pour r\u00e9cup\u00e9rer la suite.<\/p>\n
Les options qui tuent<\/h2>\nY’a quelques param\u00e8tres bien pens\u00e9s pour les cas plus avanc\u00e9s :<\/p>\n
\nmodifiedSince<\/code> et maxAge<\/code> pour du crawling incr\u00e9mental (ne re-crawler que les pages modifi\u00e9es r\u00e9cemment)<\/li>\n
source: \"sitemaps\"<\/code> pour ne suivre que le sitemap au lieu de parser tous les liens<\/li>\n
jsonOptions<\/code> avec un prompt Workers AI pour extraire des donn\u00e9es structur\u00e9es automatiquement (genre r\u00e9cup\u00e9rer le nom, le prix et le stock de 500 fiches produit d’un e-commerce en une seule passe)<\/li>\n
rejectResourceTypes<\/code> pour bloquer images, fonts et CSS et acc\u00e9l\u00e9rer le crawl<\/li>\n
authenticate<\/code> pour les sites prot\u00e9g\u00e9s par une auth HTTP basique<\/li>\n<\/ul>\nAttention quand m\u00eame, y’a quelques subtilit\u00e9s \u00e0 savoir. Un job peut tourner 7 jours max et les r\u00e9sultats sont conserv\u00e9s 14 jours seulement, du coup pensez \u00e0 les r\u00e9cup\u00e9rer vite. Le crawler respecte le robots.txt<\/code> (y compris le crawl-delay<\/code>), et si un site vous bloque, les URLs apparaissent comme “disallowed” dans les r\u00e9sultats. Sauf que \u00e7a ne vous dit pas pourquoi, faudra aller checker le robots.txt vous-m\u00eame.<\/p>\n
Voil\u00e0, cette “merveille” pour les scrappeurs fous est dispo sur les plans Free et Paid de
\nWorkers<\/a>
\n, et si vous voulez aller plus loin, Cloudflare propose aussi des endpoints pour les
\nscreenshots, les PDF et le scraping cibl\u00e9<\/a>
\n.<\/p>\n
Voil\u00e0, un petit crawler inclus dans le plan Free de Workers, qui respecte le robots.txt et qui sort du Markdown ou du JSON structur\u00e9… je vais surveiller \u00e7a de pr\u00e8s !<\/p>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"
Crawler un site entier, \u00e7a devrait pas \u00eatre aussi compliqu\u00e9. Et pourtant, entre les scripts maison qui cassent tous les 2 jours et les headless browsers qui bouffent de la RAM comme pas permis, c’est assez la gal\u00e8re ! Du coup, Cloudflare, dans sa grande bont\u00e9 (lol) vient de sortir un endpoint \/crawl (en open beta) dans la section Browser Rendering qui simplifie tout \u00e7a… vous balancez une URL dessus et hop, \u00e7a ASPIRE tout le site (oui oui). En gros, vous envoyez une requ\u00eate POST avec l’URL de d\u00e9part, et le service se charge de d\u00e9couvrir les pages (via le sitemap, les liens internes, ou les deux), de les g\u00e9n\u00e9rer dans un navigateur headless, et de vous renvoyer le contenu en HTML, Markdown ou m\u00eame en JSON structur\u00e9 gr\u00e2ce \u00e0 Workers AI. Le tout de mani\u00e8re asynchron ! Vous, vous r\u00e9cup\u00e9rez juste un job ID et vous revenez plus tard chercher les r\u00e9sultats quand c’est pr\u00eat. Cr\u00e9er votre token API Avant toute chose, il vous faut un token API Cloudflare avec la permission “Browser Rendering – Edit”. Rendez-vous dans votre dashboard Cloudflare, section API Tokens, et cr\u00e9ez-en un nouveau. Notez aussi votre Account ID (visible dans l’URL du dashboard ou dans la section Overview de n’importe quel domaine). Lancer un crawl L\u00e0, ensuite c’est hyper simple. Un seul appel curl suffit : curl -X POST “https:\/\/api.cloudflare.com\/client\/v4\/accounts\/VOTRE_ACCOUNT_ID\/browser-rendering\/crawl” -H “Authorization: Bearer VOTRE_TOKEN” -H “Content-Type: application\/json” -d ‘{“url”: “https:\/\/example.com”}’ Et l\u00e0, vous r\u00e9cup\u00e9rez un job ID en retour (genre c7f8s2d9-a8e7-4b6e-…). Par d\u00e9faut, le crawler va explorer 10 pages max avec une profondeur quasi illimit\u00e9e. Mais bon, 10 pages c’est vite limit\u00e9, du coup vous pouvez ajuster tout \u00e7a comme ceci : curl -X POST “https:\/\/api.cloudflare.com\/client\/v4\/accounts\/VOTRE_ACCOUNT_ID\/browser-rendering\/crawl” -H “Authorization: Bearer VOTRE_TOKEN” -H “Content-Type: application\/json” -d ‘{ “url”: “https:\/\/example.com\/docs”, “limit”: 50, “depth”: 3, “formats”: [“markdown”], “render”: false, “options”: { “includePatterns”: [“https:\/\/example.com\/docs\/**”], “excludePatterns”: [“**\/changelog\/**”] } }’ Le param\u00e8tre render: false permet de r\u00e9cup\u00e9rer le HTML brut sans lancer de navigateur headless, c’est carr\u00e9ment plus rapide pour les sites statiques. Sachez quand m\u00eame que pendant la beta, ce mode n’est pas factur\u00e9 ! Youpi ! R\u00e9cup\u00e9rer les r\u00e9sultats Une fois le crawl lanc\u00e9, vous interrogez le job avec un GET : curl “https:\/\/api.cloudflare.com\/client\/v4\/accounts\/VOTRE_ACCOUNT_ID\/browser-rendering\/crawl\/VOTRE_JOB_ID” -H “Authorization: Bearer VOTRE_TOKEN” Vous obtenez alors le statut (running, completed, errored…) et la liste des pages crawl\u00e9es avec leur contenu dans le format demand\u00e9. Si le r\u00e9sultat d\u00e9passe 10 Mo, un curseur de pagination est inclus pour r\u00e9cup\u00e9rer la suite. Les options qui tuent Y’a quelques param\u00e8tres bien pens\u00e9s pour les cas plus avanc\u00e9s : modifiedSince et maxAge pour du crawling incr\u00e9mental (ne re-crawler que les pages modifi\u00e9es r\u00e9cemment) source: “sitemaps” pour ne suivre que le sitemap au lieu de parser tous les liens jsonOptions avec un prompt Workers AI pour extraire des donn\u00e9es structur\u00e9es automatiquement (genre r\u00e9cup\u00e9rer le nom, le prix et le stock de 500 fiches produit d’un e-commerce en une seule passe) rejectResourceTypes pour bloquer images, fonts et CSS et acc\u00e9l\u00e9rer le crawl authenticate pour les sites prot\u00e9g\u00e9s par une auth HTTP basique Attention quand m\u00eame, y’a quelques subtilit\u00e9s \u00e0 savoir. Un job peut tourner 7 jours max et les r\u00e9sultats sont conserv\u00e9s 14 jours seulement, du coup pensez \u00e0 les r\u00e9cup\u00e9rer vite. Le crawler respecte le robots.txt (y compris le crawl-delay), et si un site vous bloque, les URLs apparaissent comme “disallowed” dans les r\u00e9sultats. Sauf que \u00e7a ne vous dit pas pourquoi, faudra aller checker le robots.txt vous-m\u00eame. Voil\u00e0, cette “merveille” pour les scrappeurs fous est dispo sur les plans Free et Paid de Workers , et si vous voulez aller plus loin, Cloudflare propose aussi des endpoints pour les screenshots, les PDF et le scraping cibl\u00e9 . Voil\u00e0, un petit crawler inclus dans le plan Free de Workers, qui respecte le robots.txt et qui sort du Markdown ou du JSON structur\u00e9… je vais surveiller \u00e7a de pr\u00e8s !<\/p>\n","protected":false},"author":1,"featured_media":2500,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-2499","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2499","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=2499"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2499\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/2500"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=2499"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}