{"id":1599,"date":"2025-11-14T06:23:59","date_gmt":"2025-11-14T05:23:59","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/scribeocr-corrigez-vos-erreurs-docr-directement-dans-le-navigateur-en-local\/"},"modified":"2025-11-14T06:23:59","modified_gmt":"2025-11-14T05:23:59","slug":"scribeocr-corrigez-vos-erreurs-docr-directement-dans-le-navigateur-en-local","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/scribeocr-corrigez-vos-erreurs-docr-directement-dans-le-navigateur-en-local\/","title":{"rendered":"ScribeOCR – Corrigez vos erreurs d’OCR directement dans le navigateur (en local)"},"content":{"rendered":"

Y\u2019a plein d\u2019images et de scans en PDF sur le net ou sur votre disque dur, qui sont difficilement exploitable \/ indexables parce que la reconnaissance de caract\u00e8res n\u2019a pas bien fonctionn\u00e9. L\u2019OCR automatique a par exemple transform\u00e9 un mot-cl\u00e9 en charabia et c\u2019est illisible. Du coup, ce passage est perdu dans les limbes et impossible de le retrouver avec une simple recherche textuelle. C\u2019est moche.<\/p>\n

Faut dire que le probl\u00e8me est r\u00e9el car quand on num\u00e9rise des millions de livres avec un OCR \u00e0 90% de pr\u00e9cision, \u00e7a a l\u2019air g\u00e9nial, sauf que les 10% d\u2019erreurs ne sont pas al\u00e9atoires. C\u2019est toujours les m\u00eames confusions qui reviennent : \u201cA\u201d qui devient \u201cH\u201d, \u201cC\u201d qui devient \u201cG\u201d, \u201c22\u201d qui se transforme en \u201c55\u201d. Et pour les documents historiques avec des polices anciennes, c\u2019est encore pire.<\/p>\n

Heureusement, il existe un outil gratuit et open source qui tourne dans votre navigateur et qui va vous permettre de corriger ces milliers d\u2019erreurs OCR sans envoyer vos docs sur les serveurs de Google, Microsoft ou je ne sais quoi d\u2019autre. Cela s\u2019appelle
\nScribeOCR<\/a>
\net vous allez l\u2019adorer !<\/p>\n

Pourquoi ? H\u00e9 bien parce que c\u2019est un \u00e9diteur d\u2019OCR open-source qui tourne \u00e0 100% dans votre navigateur, donc aucune donn\u00e9e n\u2019est envoy\u00e9e sur le net et parce qu\u2019il est capable de corriger toutes les erreurs efficacement ! L\u2019interface affiche le texte OCRis\u00e9 par-dessus l\u2019image source, comme \u00e7a, vous voyez imm\u00e9diatement o\u00f9 sont les probl\u00e8mes et vous corrigez tout \u00e7a en s\u00e9rie.<\/p>\n

\n $\"\"$ \n<\/p>\n

Et surtout ScribeOCR g\u00e9n\u00e8re une police custom pour chaque document. \u00c7a vous laisse garder l\u2019apparence originale du doc, tout en ayant un texte parfaitement indexable pour des recherches par exemple. Vous obtenez ainsi un PDF qui ressemble au document d\u2019origine mais o\u00f9 chaque mot est cliquable et cherchable. Bref, c\u2019est super pratique si vous num\u00e9risez des archives ou des vieux bouquins.<\/p>\n

L\u2019outil supporte plusieurs moteurs OCR dont Tesseract LSTM et Legacy et vous pouvez ajuster les param\u00e8tres de reconnaissance selon le type de document : vitesse, qualit\u00e9, langue\u2026etc. Y\u2019a m\u00eame des options avanc\u00e9es pour le debug et l\u2019optimisation des polices.<\/p>\n

L\u2019outil permet donc de cr\u00e9er des PDF recherchables \u00e0 partir de scans (c\u2019est le cas classique) mais \u00e9galement de corriger des donn\u00e9es OCR existantes, y compris les fichiers HOCR de Tesseract. Et pour num\u00e9riser compl\u00e8tement des documents ou livres anciens, l\u2019interface de correction vous aidera \u00e0 faire de l\u2019excellent travail !<\/p>\n

\n Le projet est open-source (licence AGPL-3.0)<\/a>
\n, ce qui veut dire que vous pouvez l\u2019auto-h\u00e9berger si vous voulez. Ainsi, pour l\u2019installer en local, c\u2019est tr\u00e8s simple :<\/p>\n

git clone --recursive https:\/\/github.com\/scribeocr\/scribeocr.git\n<\/span><\/span>cd scribeocr\n<\/span><\/span>npm i\n<\/span><\/span>npx http-server\n<\/span><\/span><\/code><\/pre>\n\n\n<\/p>\n

Mais si vous voulez juste tester, y\u2019a une d\u00e9mo sur
\n scribeocr.com<\/a>
\n. Vous uploadez votre fichier, vous choisissez votre langue et votre moteur OCR, et hop c\u2019est parti mon kiki.<\/p>\n

Et pour les sorties, vous avez le choix : PDF, DOCX, HTML et d\u2019autres formats. Vous pouvez m\u00eame ajuster les param\u00e8tres d\u2019export selon vos besoins. Auto-rotation, optimisation de police, tout est configurable !<\/p>\n

\n $\"\"$ \n<\/p>\n

Bref, au final
\n ScribeOCR<\/a>
\nr\u00e9pare ces angles morts bien relou de la num\u00e9risation massive de documents sans que vous ayez \u00e0 sacrifier votre vie priv\u00e9e !<\/p>\n

Et \u00e7a c\u2019est cool !<\/p>\n<\/div>\n","protected":false},"excerpt":{"rendered":"

Y\u2019a plein d\u2019images et de scans en PDF sur le net ou sur votre disque dur, qui sont difficilement exploitable \/ indexables parce que la reconnaissance de caract\u00e8res n\u2019a pas bien fonctionn\u00e9. L\u2019OCR automatique a par exemple transform\u00e9 un mot-cl\u00e9 en charabia et c\u2019est illisible. Du coup, ce passage est perdu dans les limbes et impossible de le retrouver avec une simple recherche textuelle. C\u2019est moche. Faut dire que le probl\u00e8me est r\u00e9el car quand on num\u00e9rise des millions de livres avec un OCR \u00e0 90% de pr\u00e9cision, \u00e7a a l\u2019air g\u00e9nial, sauf que les 10% d\u2019erreurs ne sont pas al\u00e9atoires. C\u2019est toujours les m\u00eames confusions qui reviennent : \u201cA\u201d qui devient \u201cH\u201d, \u201cC\u201d qui devient \u201cG\u201d, \u201c22\u201d qui se transforme en \u201c55\u201d. Et pour les documents historiques avec des polices anciennes, c\u2019est encore pire. Heureusement, il existe un outil gratuit et open source qui tourne dans votre navigateur et qui va vous permettre de corriger ces milliers d\u2019erreurs OCR sans envoyer vos docs sur les serveurs de Google, Microsoft ou je ne sais quoi d\u2019autre. Cela s\u2019appelle ScribeOCR et vous allez l\u2019adorer ! Pourquoi ? H\u00e9 bien parce que c\u2019est un \u00e9diteur d\u2019OCR open-source qui tourne \u00e0 100% dans votre navigateur, donc aucune donn\u00e9e n\u2019est envoy\u00e9e sur le net et parce qu\u2019il est capable de corriger toutes les erreurs efficacement ! L\u2019interface affiche le texte OCRis\u00e9 par-dessus l\u2019image source, comme \u00e7a, vous voyez imm\u00e9diatement o\u00f9 sont les probl\u00e8mes et vous corrigez tout \u00e7a en s\u00e9rie. Et surtout ScribeOCR g\u00e9n\u00e8re une police custom pour chaque document. \u00c7a vous laisse garder l\u2019apparence originale du doc, tout en ayant un texte parfaitement indexable pour des recherches par exemple. Vous obtenez ainsi un PDF qui ressemble au document d\u2019origine mais o\u00f9 chaque mot est cliquable et cherchable. Bref, c\u2019est super pratique si vous num\u00e9risez des archives ou des vieux bouquins. L\u2019outil supporte plusieurs moteurs OCR dont Tesseract LSTM et Legacy et vous pouvez ajuster les param\u00e8tres de reconnaissance selon le type de document : vitesse, qualit\u00e9, langue\u2026etc. Y\u2019a m\u00eame des options avanc\u00e9es pour le debug et l\u2019optimisation des polices. L\u2019outil permet donc de cr\u00e9er des PDF recherchables \u00e0 partir de scans (c\u2019est le cas classique) mais \u00e9galement de corriger des donn\u00e9es OCR existantes, y compris les fichiers HOCR de Tesseract. Et pour num\u00e9riser compl\u00e8tement des documents ou livres anciens, l\u2019interface de correction vous aidera \u00e0 faire de l\u2019excellent travail ! Le projet est open-source (licence AGPL-3.0) , ce qui veut dire que vous pouvez l\u2019auto-h\u00e9berger si vous voulez. Ainsi, pour l\u2019installer en local, c\u2019est tr\u00e8s simple : git clone –recursive https:\/\/github.com\/scribeocr\/scribeocr.git cd scribeocr npm i npx http-server Mais si vous voulez juste tester, y\u2019a une d\u00e9mo sur scribeocr.com . Vous uploadez votre fichier, vous choisissez votre langue et votre moteur OCR, et hop c\u2019est parti mon kiki. Et pour les sorties, vous avez le choix : PDF, DOCX, HTML et d\u2019autres formats. Vous pouvez m\u00eame ajuster les param\u00e8tres d\u2019export selon vos besoins. Auto-rotation, optimisation de police, tout est configurable ! Bref, au final ScribeOCR r\u00e9pare ces angles morts bien relou de la num\u00e9risation massive de documents sans que vous ayez \u00e0 sacrifier votre vie priv\u00e9e ! Et \u00e7a c\u2019est cool !<\/p>\n","protected":false},"author":1,"featured_media":1600,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-1599","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/1599","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=1599"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/1599\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/1600"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=1599"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}