﻿﻿{"id":2149,"date":"2026-01-23T14:37:20","date_gmt":"2026-01-23T13:37:20","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/quand-2-frangins-construisent-une-ia-video-dans-leur-garage\/"},"modified":"2026-01-23T14:37:20","modified_gmt":"2026-01-23T13:37:20","slug":"quand-2-frangins-construisent-une-ia-video-dans-leur-garage","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/quand-2-frangins-construisent-une-ia-video-dans-leur-garage\/","title":{"rendered":"Quand 2 frangins construisent une IA vid\u00e9o dans leur garage"},"content":{"rendered":"<p>Un mod\u00e8le text-to-video open source, gratuit et capable de tourner ailleurs que sur un supercalculateur de la NASA ?<\/p>\n<p>J&#8217;avoue, j&#8217;ai cru au fake en d\u00e9couvrant le truc, surtout quand on voit la puissance de feu qu&#8217;il faut chez OpenAI (Sora) ou Google (Veo) pour sortir le moindre clip de 3 secondes. Mais BON, parfois, il suffit de deux fr\u00e8res motiv\u00e9s pour bousculer un peu les g\u00e9ants de l&#8217;IA.<\/p>\n<p>Et c&#8217;est 2 fr\u00e8res, ce sont Sahil et Manu Chopra, qui depuis l&#8217;automne 2022 bosse avec acharnement sur leur mod\u00e8le de g\u00e9n\u00e9ration de vid\u00e9os baptis\u00e9 <strong><br \/>\n<a href=\"https:\/\/huggingface.co\/collections\/Linum-AI\/linum-v2-2b-text-to-video\">Linum<\/a><br \/>\n<\/strong>.<\/p>\n<p>Leur histoire est assez dingue et c&#8217;est pour \u00e7a que je vous la raconte aujourd&#8217;hui. En fait, au d\u00e9but, ils ont fait comme tout le monde. C&#8217;est \u00e0 dire qu&#8217;ils ont essay\u00e9 de bidouiller Stable Diffusion XL pour lui faire cracher de la vid\u00e9o. Ils ont fini par mettre au point une extension un peu &#8220;hacky&#8221; bas\u00e9 sur un mod\u00e8le image, sauf que \u00e7a ne marchait pas tr\u00e8s bien.<\/p>\n<p>Enfin si, \u00e7a sortait des GIFs d&#8217;une seconde en 180p pour Discord mais pas vraiment de quoi faire trembler Hollywood et<br \/>\n<a href=\"https:\/\/korben.info\/matthew-mcconaughey-trademark-ia-deepfake-analyse.html\">Matthew McConaughey<\/a><br \/>\n(lol). Le probl\u00e8me, c&#8217;est que les VAE (les encodeurs d&#8217;images) ne comprennent rien au temps qui passe, alors ils traitent chaque frame ind\u00e9pendamment et \u00e7a donne cet effet de scintillement insupportable qu&#8217;on retrouve dans pas mal de g\u00e9n\u00e9rateurs vid\u00e9o libre ou open source.<\/p>\n<p>Du coup, ils ont pris une d\u00e9cision radicale. Tout foutre \u00e0 la poubelle et repartir de z\u00e9ro !<\/p>\n<p>Ils ont donc pass\u00e9 deux longues ann\u00e9es \u00e0 batir <strong>Linum v2<\/strong> &#8220;from scratch&#8221;. Cela veut dire qu&#8217;il ont du trouver les donn\u00e9es, entra\u00eener des mod\u00e8les de vision pour filtrer le dataset, mettre manuellement des l\u00e9gendes sur des milliers de vid\u00e9os, g\u00e9rer les clusters de GPU&#8230; et j&#8217;en passe !<\/p>\n<div class=\"video-container\">\n<video controls preload=\"none\"><\/p>\n<pre><code>Votre navigateur ne supporte pas la lecture de vid\u00e9os HTML5. Voici un\n&lt;a href=\"\/quand-2-frangins-construisent-une-ia-video-dans-leur-garage\/quand-2-frangins-construisent-une-ia-video-dans-leur-garage-1.mp4\"&gt;lien vers la vid\u00e9o&lt;\/a&gt;.\n<\/code><\/pre>\n<p><\/video><\/p>\n<div>\n<p>Et \u00e0 la cl\u00e9 de tout ce travail, ils ont fini par obtenir un mod\u00e8le de <strong>2 milliards de param\u00e8tres<\/strong> (ce qui est minuscule pour de la vid\u00e9o, je tiens \u00e0 le dire) capable de g\u00e9n\u00e9rer des clips de 2 \u00e0 5 secondes en 720p !<\/p>\n<p>Et le plus beau c&#8217;est que c&#8217;est sous licence <strong>Apache 2.0<\/strong> donc en open source.<\/p>\n<p>Pour r\u00e9ussir cette prouesse, ils n&#8217;ont pas eu d&#8217;autre choix que d&#8217;\u00eatre malins.<\/p>\n<p>Par exemple, ils ont choisi d&#8217;utiliser le VAE de Wan 2.1 (qui g\u00e8re tr\u00e8s bien la compression temporelle) pour ne pas r\u00e9inventer la roue sur cette partie. Leur vision en fait, c&#8217;est de voir ces mod\u00e8les comme des &#8220;moteurs de rendu invers\u00e9s&#8221;. Au lieu de placer des polygones et des lumi\u00e8res comme dans Blender, vous d\u00e9crivez la sc\u00e8ne et le mod\u00e8le fait le reste.<\/p>\n<div class=\"video-container\">\n<video controls preload=\"none\"><\/p>\n<pre><code>Votre navigateur ne supporte pas la lecture de vid\u00e9os HTML5. Voici un\n&lt;a href=\"\/quand-2-frangins-construisent-une-ia-video-dans-leur-garage\/quand-2-frangins-construisent-une-ia-video-dans-leur-garage-1.mov\"&gt;lien vers la vid\u00e9o&lt;\/a&gt;.\n<\/code><\/pre>\n<p><\/video><\/p>\n<div>\n<p>Linum est un mod\u00e8le encore jeune et la physique est parfois aux fraises puis \u00e7a manque de son mais pour une \u00e9quipe de deux personnes face \u00e0 des bo\u00eetes qui ont des milliards de budget, le r\u00e9sultat est plut\u00f4t pas mal. Faut saluer le taf !<\/p>\n<p>Donc si vous avez une machine qui tient la route (ou un bon cloud) et quelques comp\u00e9tences techniques, sachez que les poids sont disponibles sur<br \/>\n<a href=\"https:\/\/huggingface.co\/collections\/Linum-AI\/linum-v2-2b-text-to-video\">Hugging Face si \u00e7a vous chauffe<\/a><br \/>\n.<\/p>\n<p>\n<a href=\"https:\/\/www.linum.ai\/field-notes\/launch-linum-v2\">Source<\/a>\n<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Un mod\u00e8le text-to-video open source, gratuit et capable de tourner ailleurs que sur un supercalculateur de la NASA ? J&#8217;avoue, j&#8217;ai cru au fake en d\u00e9couvrant le truc, surtout quand on voit la puissance de feu qu&#8217;il faut chez OpenAI (Sora) ou Google (Veo) pour sortir le moindre clip de 3 secondes. Mais BON, parfois, il suffit de deux fr\u00e8res motiv\u00e9s pour bousculer un peu les g\u00e9ants de l&#8217;IA. Et c&#8217;est 2 fr\u00e8res, ce sont Sahil et Manu Chopra, qui depuis l&#8217;automne 2022 bosse avec acharnement sur leur mod\u00e8le de g\u00e9n\u00e9ration de vid\u00e9os baptis\u00e9 Linum . Leur histoire est assez dingue et c&#8217;est pour \u00e7a que je vous la raconte aujourd&#8217;hui. En fait, au d\u00e9but, ils ont fait comme tout le monde. C&#8217;est \u00e0 dire qu&#8217;ils ont essay\u00e9 de bidouiller Stable Diffusion XL pour lui faire cracher de la vid\u00e9o. Ils ont fini par mettre au point une extension un peu &#8220;hacky&#8221; bas\u00e9 sur un mod\u00e8le image, sauf que \u00e7a ne marchait pas tr\u00e8s bien. Enfin si, \u00e7a sortait des GIFs d&#8217;une seconde en 180p pour Discord mais pas vraiment de quoi faire trembler Hollywood et Matthew McConaughey (lol). Le probl\u00e8me, c&#8217;est que les VAE (les encodeurs d&#8217;images) ne comprennent rien au temps qui passe, alors ils traitent chaque frame ind\u00e9pendamment et \u00e7a donne cet effet de scintillement insupportable qu&#8217;on retrouve dans pas mal de g\u00e9n\u00e9rateurs vid\u00e9o libre ou open source. Du coup, ils ont pris une d\u00e9cision radicale. Tout foutre \u00e0 la poubelle et repartir de z\u00e9ro ! Ils ont donc pass\u00e9 deux longues ann\u00e9es \u00e0 batir Linum v2 &#8220;from scratch&#8221;. Cela veut dire qu&#8217;il ont du trouver les donn\u00e9es, entra\u00eener des mod\u00e8les de vision pour filtrer le dataset, mettre manuellement des l\u00e9gendes sur des milliers de vid\u00e9os, g\u00e9rer les clusters de GPU&#8230; et j&#8217;en passe ! Votre navigateur ne supporte pas la lecture de vid\u00e9os HTML5. Voici un &lt;a href=&#8221;\/quand-2-frangins-construisent-une-ia-video-dans-leur-garage\/quand-2-frangins-construisent-une-ia-video-dans-leur-garage-1.mp4&#8243;&gt;lien vers la vid\u00e9o&lt;\/a&gt;. Et \u00e0 la cl\u00e9 de tout ce travail, ils ont fini par obtenir un mod\u00e8le de 2 milliards de param\u00e8tres (ce qui est minuscule pour de la vid\u00e9o, je tiens \u00e0 le dire) capable de g\u00e9n\u00e9rer des clips de 2 \u00e0 5 secondes en 720p ! Et le plus beau c&#8217;est que c&#8217;est sous licence Apache 2.0 donc en open source. Pour r\u00e9ussir cette prouesse, ils n&#8217;ont pas eu d&#8217;autre choix que d&#8217;\u00eatre malins. Par exemple, ils ont choisi d&#8217;utiliser le VAE de Wan 2.1 (qui g\u00e8re tr\u00e8s bien la compression temporelle) pour ne pas r\u00e9inventer la roue sur cette partie. Leur vision en fait, c&#8217;est de voir ces mod\u00e8les comme des &#8220;moteurs de rendu invers\u00e9s&#8221;. Au lieu de placer des polygones et des lumi\u00e8res comme dans Blender, vous d\u00e9crivez la sc\u00e8ne et le mod\u00e8le fait le reste. Votre navigateur ne supporte pas la lecture de vid\u00e9os HTML5. Voici un &lt;a href=&#8221;\/quand-2-frangins-construisent-une-ia-video-dans-leur-garage\/quand-2-frangins-construisent-une-ia-video-dans-leur-garage-1.mov&#8221;&gt;lien vers la vid\u00e9o&lt;\/a&gt;. Linum est un mod\u00e8le encore jeune et la physique est parfois aux fraises puis \u00e7a manque de son mais pour une \u00e9quipe de deux personnes face \u00e0 des bo\u00eetes qui ont des milliards de budget, le r\u00e9sultat est plut\u00f4t pas mal. Faut saluer le taf ! Donc si vous avez une machine qui tient la route (ou un bon cloud) et quelques comp\u00e9tences techniques, sachez que les poids sont disponibles sur Hugging Face si \u00e7a vous chauffe . Source<\/p>\n","protected":false},"author":1,"featured_media":2150,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-2149","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2149","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=2149"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2149\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/2150"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=2149"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}