mlx_audio.tts.generate --model mlx-community\/Kokoro-82M-bf16 --text \"Salut les copains\" --lang_code f --play\n<\/span><\/span><\/code><\/pre>\nLe truc sympa, c’est que \u00e7a ne s’arr\u00eate pas \u00e0 la synth\u00e8se vocale. C\u00f4t\u00e9 transcription, on retrouve Whisper (le mod\u00e8le d’OpenAI qui g\u00e8re 99 langues), Parakeet de NVIDIA pour les langues europ\u00e9ennes, et m\u00eame VibeVoice-ASR de Microsoft qui fait de la diarization (identifier qui parle dans une conversation).<\/p>\n
<\/p>\n
Pour transcrire un fichier audio, c’est donc tout aussi simple :<\/p>\n\npython -m mlx_audio.stt.generate --model mlx-community\/whisper-large-v3-turbo-asr-fp16 --audio meeting.wav --verbose\n<\/span><\/span><\/code><\/pre>\nY’a aussi le
\nvoice cloning<\/a>
\navec CSM, o\u00f9 vous filez un fichier audio de r\u00e9f\u00e9rence et le mod\u00e8le reproduit la voix. Perso, \u00e7a fait un peu flipper mais qui est carr\u00e9ment bluffant ! Sauf si vous avez une voix super particuli\u00e8re (trop de clope hein ^^), au final le r\u00e9sultat est assez bon.<\/p>\n
Attention, tout \u00e7a a besoin de m\u00e9moire ! Heureusement, la biblioth\u00e8que g\u00e8re la quantization (de 3 \u00e0 8 bits), du coup les mod\u00e8les sont compress\u00e9s pour tenir dans la m\u00e9moire unifi\u00e9e des puces Apple Silicon. Le plus l\u00e9ger, Kokoro, fait 82M de param\u00e8tres et le plus costaud, Ming Omni, monte \u00e0 16.8 milliards de param\u00e8tres (mais en mixture-of-experts, donc seulement 3B activ\u00e9s \u00e0 la fois). Pour ce dernier, faut donc un Mac avec pas mal de RAM.<\/p>\n
D’ailleurs, si vous \u00eates d\u00e9veloppeur, la biblioth\u00e8que expose \u00e9galement une API REST compatible OpenAI. \u00c7a veut dire que vos apps qui causent d\u00e9j\u00e0 avec l’API d’OpenAI peuvent basculer sur du local sans changer une ligne de code… enfin presque. Car faut quand m\u00eame pointer vers localhost au lieu des serveurs d’OpenAI, mais c’est \u00e0 peu pr\u00e8s tout. Y’a m\u00eame un package Swift pour int\u00e9grer \u00e7a dans une app iOS ou macOS native.<\/p>\n
Voil\u00e0, pour ceux qui pr\u00e9f\u00e8rent une interface graphique, un mode web avec visualisation 3D de l’audio est m\u00eame int\u00e9gr\u00e9. C’est super joli !<\/p>\n
Ce projet est sous licence MIT, et le mainteneur, Prince Canuma, est un ancien ing\u00e9nieur ML chez Arcee AI, donc pas un random qui a fork\u00e9 un truc un dimanche ^^.<\/p>\n
Voil\u00e0, si vous avez un Mac et que l’audio IA en local vous branche, c’est open source, c’est gratuit et \u00e7a marche carr\u00e9ment bien !<\/p>\n<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"
Faire de la synth\u00e8se vocale , de la transcription et du voice cloning en local sur son Mac, sans envoyer le moindre octet dans le cloud… hey bien c’est possible mes petits foufous et en plus comme je sais que vous avez des oursins dans les poches, h\u00e9 bien bonne nouvelle : C’est gratuit ! MLX-Audio , c’est donc une biblioth\u00e8que Python qui exploite le framework MLX d’Apple pour faire tourner des mod\u00e8les audio directement sur les puces M1, M2, M3, M4 et maintenant M5. Cette liste est trop longue, la prochaine fois, j’\u00e9crirais M* ou M1-5 ^^. Avec cette lib, du coup, tout se fait en local sur votre machine. Si je devais oser une comparaison un peu casse gueule, je dirais que c’est un peu le Ollama de l’audio. C\u00f4t\u00e9 text-to-speech, y’a surtout du choix. Une dizaine de mod\u00e8les sont disponibles, dont Kokoro pour du multilingue (fran\u00e7ais, anglais, japonais, chinois, espagnol…), Chatterbox qui g\u00e8re 23 langues, ou encore Dia pour les dialogues. Et voici comment ensuite avec une commande dans le terminal, on peut faire parler la machine : mlx_audio.tts.generate –model mlx-community\/Kokoro-82M-bf16 –text “Salut les copains” –lang_code f –play Le truc sympa, c’est que \u00e7a ne s’arr\u00eate pas \u00e0 la synth\u00e8se vocale. C\u00f4t\u00e9 transcription, on retrouve Whisper (le mod\u00e8le d’OpenAI qui g\u00e8re 99 langues), Parakeet de NVIDIA pour les langues europ\u00e9ennes, et m\u00eame VibeVoice-ASR de Microsoft qui fait de la diarization (identifier qui parle dans une conversation). Pour transcrire un fichier audio, c’est donc tout aussi simple : python -m mlx_audio.stt.generate –model mlx-community\/whisper-large-v3-turbo-asr-fp16 –audio meeting.wav –verbose Y’a aussi le voice cloning avec CSM, o\u00f9 vous filez un fichier audio de r\u00e9f\u00e9rence et le mod\u00e8le reproduit la voix. Perso, \u00e7a fait un peu flipper mais qui est carr\u00e9ment bluffant ! Sauf si vous avez une voix super particuli\u00e8re (trop de clope hein ^^), au final le r\u00e9sultat est assez bon. Attention, tout \u00e7a a besoin de m\u00e9moire ! Heureusement, la biblioth\u00e8que g\u00e8re la quantization (de 3 \u00e0 8 bits), du coup les mod\u00e8les sont compress\u00e9s pour tenir dans la m\u00e9moire unifi\u00e9e des puces Apple Silicon. Le plus l\u00e9ger, Kokoro, fait 82M de param\u00e8tres et le plus costaud, Ming Omni, monte \u00e0 16.8 milliards de param\u00e8tres (mais en mixture-of-experts, donc seulement 3B activ\u00e9s \u00e0 la fois). Pour ce dernier, faut donc un Mac avec pas mal de RAM. D’ailleurs, si vous \u00eates d\u00e9veloppeur, la biblioth\u00e8que expose \u00e9galement une API REST compatible OpenAI. \u00c7a veut dire que vos apps qui causent d\u00e9j\u00e0 avec l’API d’OpenAI peuvent basculer sur du local sans changer une ligne de code… enfin presque. Car faut quand m\u00eame pointer vers localhost au lieu des serveurs d’OpenAI, mais c’est \u00e0 peu pr\u00e8s tout. Y’a m\u00eame un package Swift pour int\u00e9grer \u00e7a dans une app iOS ou macOS native. Voil\u00e0, pour ceux qui pr\u00e9f\u00e8rent une interface graphique, un mode web avec visualisation 3D de l’audio est m\u00eame int\u00e9gr\u00e9. C’est super joli ! Ce projet est sous licence MIT, et le mainteneur, Prince Canuma, est un ancien ing\u00e9nieur ML chez Arcee AI, donc pas un random qui a fork\u00e9 un truc un dimanche ^^. Voil\u00e0, si vous avez un Mac et que l’audio IA en local vous branche, c’est open source, c’est gratuit et \u00e7a marche carr\u00e9ment bien !<\/p>\n","protected":false},"author":1,"featured_media":2502,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-2501","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2501","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=2501"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2501\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/2502"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=2501"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}