﻿﻿{"id":2569,"date":"2026-03-20T12:22:27","date_gmt":"2026-03-20T11:22:27","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/voicebox-clonez-des-voix-en-local-sans-passer-par-le-cloud\/"},"modified":"2026-03-20T12:22:27","modified_gmt":"2026-03-20T11:22:27","slug":"voicebox-clonez-des-voix-en-local-sans-passer-par-le-cloud","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/voicebox-clonez-des-voix-en-local-sans-passer-par-le-cloud\/","title":{"rendered":"Voicebox &#8211; Clonez des voix en local sans passer par le cloud"},"content":{"rendered":"<p>Si vous cherchez un moyen de faire du clonage vocal en local sans filer vos fichiers audio \u00e0 un service cloud,<br \/>\n<a href=\"https:\/\/voicebox.sh\/\">Voicebox<\/a><br \/>\ndevrait vous plaire. C&#8217;est un studio de<br \/>\n<a href=\"https:\/\/korben.info\/synthese-vocale-linux-mac-windows.html\">synth\u00e8se vocale<\/a><br \/>\nopen source et gratuit qui tourne enti\u00e8rement sur votre machine, et qui n&#8217;a rien \u00e0 envier \u00e0 ElevenLabs.<\/p>\n<p>Concr\u00e8tement, vous t\u00e9l\u00e9chargez l&#8217;app (dispo macOS, Windows et Docker), vous importez un extrait audio d&#8217;\u00e0 peine 3 secondes minimum et hop, la voix est clon\u00e9e. Pas besoin de compte, pas de limite d&#8217;utilisation, pas de &#8220;cr\u00e9dits&#8221; qui fondent comme neige au soleil !<\/p>\n<p>\n<img decoding=\"async\" src=\"https:\/\/korben.info\/cdn-cgi\/image\/width=1200,fit=scale-down,quality=90,f=avif\/voicebox-clonage-vocal-open-source\/voicebox-clonage-vocal-open-source-2.png\" alt=\"\" loading=\"lazy\">\n<\/p>\n<p>Voicebox embarque 5 moteurs TTS diff\u00e9rents plut\u00f4t que de tout miser sur un seul. Par exemple, Qwen3-TTS g\u00e8re 10 langues avec des instructions en langage naturel du genre &#8220;parle lentement&#8221; ou &#8220;chuchote&#8221;. Chatterbox Multilingual couvre 23 langues, de l&#8217;arabe au swahili en passant par le finnois.<\/p>\n<p>LuxTTS lui est ultra-l\u00e9ger&#8230; genre 1 Go de VRAM et 150x plus rapide que le temps r\u00e9el m\u00eame sur CPU (anglais uniquement par contre) ! Et avec Chatterbox Turbo, vous pouvez injecter des tags comme [laugh], [sigh] ou [gasp] directement dans le texte pour que la voix rigole ou soupire \u00e0 la demande (anglais aussi). Franchement, c&#8217;est pas mal du tout.<\/p>\n<p>Tenez voici ce que \u00e7a donne avec ma voix (J&#8217;ai utilis\u00e9 Qwen3)<\/p>\n<div class=\"audio-container\">\n<audio controls preload=\"none\"><\/p>\n<p>Votre navigateur ne supporte pas l&#8217;\u00e9l\u00e9ment audio.<br \/>\n<\/audio><\/p>\n<p>Et pour ceux qui aiment bidouiller, y&#8217;a une API REST compl\u00e8te sur localhost:17493. Du coup, on peut int\u00e9grer la synth\u00e8se vocale dans ses propres scripts, automatiser la g\u00e9n\u00e9ration de podcasts ou monter un pipeline perso avec ffmpeg. Parce que bon, avoir un moteur vocal sans pouvoir l&#8217;utiliser dans ses projets, \u00e7a n&#8217;a pas d&#8217;int\u00e9r\u00eat.<\/p>\n<p>\n<img decoding=\"async\" src=\"https:\/\/korben.info\/cdn-cgi\/image\/width=1200,fit=scale-down,quality=90,f=avif\/voicebox-clonage-vocal-open-source\/voicebox-clonage-vocal-open-source-3.png\" alt=\"\" loading=\"lazy\">\n<\/p>\n<p>C\u00f4t\u00e9 post-production, 8 effets audio sont dispos (pitch shift, reverb, delay, chorus, compression&#8230;) propuls\u00e9s par pedalboard, la lib audio de Spotify. On peut aussi sauvegarder des presets et les appliquer par profil vocal. Y&#8217;a m\u00eame un \u00e9diteur multi-pistes pour composer des conversations ou des narrations avec plusieurs voix sur une timeline.<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/korben.info\/cdn-cgi\/image\/width=1200,fit=scale-down,quality=90,f=avif\/voicebox-clonage-vocal-open-source\/voicebox-clonage-vocal-open-source-4.png\" alt=\"\" loading=\"lazy\"><\/p>\n<p>Attention par contre, le projet est assez r\u00e9cent (c&#8217;est sorti en janvier) et c\u00f4t\u00e9 Linux, y&#8217;a pas encore de binaires pr\u00e9-compil\u00e9s, faudra donc compiler from source mais je sais que vous adorez \u00e7a, les barbus ^^. Et le probl\u00e8me avec 5 moteurs diff\u00e9rents, c&#8217;est que chacun a ses propres d\u00e9pendances, donc \u00e7a prend pas mal en espace disque.<\/p>\n<p>Sous le capot, c&#8217;est cod\u00e9 en Rust, \u00e7a utilise Tauri (pas Electron) car personne ne veut un genre de Chromium de 500 Mo pour lancer un simple outil audio. Sur Mac Apple Silicon, l&#8217;inf\u00e9rence passe par MLX et le Neural Engine et sur Windows et Linux, c&#8217;est CUDA, ROCm pour AMD, DirectML et m\u00eame Intel Arc.<\/p>\n<p>Si vous avez d\u00e9j\u00e0 jou\u00e9 avec<br \/>\n<a href=\"https:\/\/korben.info\/mlx-audio.html\">MLX-Audio<\/a><br \/>\npour faire de la synth\u00e8se vocale en ligne de commande, Voicebox c&#8217;est finalement la version &#8220;app compl\u00e8te&#8221; avec interface graphique, gestion de profils vocaux et file d&#8217;attente de g\u00e9n\u00e9ration. C&#8217;est un peu le Ollama de la voix.<\/p>\n<p>Voil\u00e0, si le clonage vocal en local vous branche, c&#8217;est sous licence MIT, c&#8217;est gratuit et \u00e7a tourne nickel ! Ah et si vous \u00eates un escroc qui cherche \u00e0 cloner des voix pour arnaquer des gens, sachez que je viens de vous jeter un mauvais sort \u00e0 travers la lecture de cet article. Attendez-vous \u00e0 avoir des cheveux qui vous poussent sur la langue et des verrues dans les yeux, d&#8217;ici quelques semaines.<\/p>\n<p>Merci \u00e0 Lorenper pour la d\u00e9couverte.<\/p>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Si vous cherchez un moyen de faire du clonage vocal en local sans filer vos fichiers audio \u00e0 un service cloud, Voicebox devrait vous plaire. C&#8217;est un studio de synth\u00e8se vocale open source et gratuit qui tourne enti\u00e8rement sur votre machine, et qui n&#8217;a rien \u00e0 envier \u00e0 ElevenLabs. Concr\u00e8tement, vous t\u00e9l\u00e9chargez l&#8217;app (dispo macOS, Windows et Docker), vous importez un extrait audio d&#8217;\u00e0 peine 3 secondes minimum et hop, la voix est clon\u00e9e. Pas besoin de compte, pas de limite d&#8217;utilisation, pas de &#8220;cr\u00e9dits&#8221; qui fondent comme neige au soleil ! Voicebox embarque 5 moteurs TTS diff\u00e9rents plut\u00f4t que de tout miser sur un seul. Par exemple, Qwen3-TTS g\u00e8re 10 langues avec des instructions en langage naturel du genre &#8220;parle lentement&#8221; ou &#8220;chuchote&#8221;. Chatterbox Multilingual couvre 23 langues, de l&#8217;arabe au swahili en passant par le finnois. LuxTTS lui est ultra-l\u00e9ger&#8230; genre 1 Go de VRAM et 150x plus rapide que le temps r\u00e9el m\u00eame sur CPU (anglais uniquement par contre) ! Et avec Chatterbox Turbo, vous pouvez injecter des tags comme [laugh], [sigh] ou [gasp] directement dans le texte pour que la voix rigole ou soupire \u00e0 la demande (anglais aussi). Franchement, c&#8217;est pas mal du tout. Tenez voici ce que \u00e7a donne avec ma voix (J&#8217;ai utilis\u00e9 Qwen3) Votre navigateur ne supporte pas l&#8217;\u00e9l\u00e9ment audio. Et pour ceux qui aiment bidouiller, y&#8217;a une API REST compl\u00e8te sur localhost:17493. Du coup, on peut int\u00e9grer la synth\u00e8se vocale dans ses propres scripts, automatiser la g\u00e9n\u00e9ration de podcasts ou monter un pipeline perso avec ffmpeg. Parce que bon, avoir un moteur vocal sans pouvoir l&#8217;utiliser dans ses projets, \u00e7a n&#8217;a pas d&#8217;int\u00e9r\u00eat. C\u00f4t\u00e9 post-production, 8 effets audio sont dispos (pitch shift, reverb, delay, chorus, compression&#8230;) propuls\u00e9s par pedalboard, la lib audio de Spotify. On peut aussi sauvegarder des presets et les appliquer par profil vocal. Y&#8217;a m\u00eame un \u00e9diteur multi-pistes pour composer des conversations ou des narrations avec plusieurs voix sur une timeline. Attention par contre, le projet est assez r\u00e9cent (c&#8217;est sorti en janvier) et c\u00f4t\u00e9 Linux, y&#8217;a pas encore de binaires pr\u00e9-compil\u00e9s, faudra donc compiler from source mais je sais que vous adorez \u00e7a, les barbus ^^. Et le probl\u00e8me avec 5 moteurs diff\u00e9rents, c&#8217;est que chacun a ses propres d\u00e9pendances, donc \u00e7a prend pas mal en espace disque. Sous le capot, c&#8217;est cod\u00e9 en Rust, \u00e7a utilise Tauri (pas Electron) car personne ne veut un genre de Chromium de 500 Mo pour lancer un simple outil audio. Sur Mac Apple Silicon, l&#8217;inf\u00e9rence passe par MLX et le Neural Engine et sur Windows et Linux, c&#8217;est CUDA, ROCm pour AMD, DirectML et m\u00eame Intel Arc. Si vous avez d\u00e9j\u00e0 jou\u00e9 avec MLX-Audio pour faire de la synth\u00e8se vocale en ligne de commande, Voicebox c&#8217;est finalement la version &#8220;app compl\u00e8te&#8221; avec interface graphique, gestion de profils vocaux et file d&#8217;attente de g\u00e9n\u00e9ration. C&#8217;est un peu le Ollama de la voix. Voil\u00e0, si le clonage vocal en local vous branche, c&#8217;est sous licence MIT, c&#8217;est gratuit et \u00e7a tourne nickel ! Ah et si vous \u00eates un escroc qui cherche \u00e0 cloner des voix pour arnaquer des gens, sachez que je viens de vous jeter un mauvais sort \u00e0 travers la lecture de cet article. Attendez-vous \u00e0 avoir des cheveux qui vous poussent sur la langue et des verrues dans les yeux, d&#8217;ici quelques semaines. Merci \u00e0 Lorenper pour la d\u00e9couverte.<\/p>\n","protected":false},"author":1,"featured_media":2570,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-2569","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2569","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=2569"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2569\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/2570"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=2569"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}