﻿﻿{"id":2401,"date":"2026-02-26T14:59:34","date_gmt":"2026-02-26T13:59:34","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/fdm-1-lia-qui-utilise-un-ordinateur-comme-vous\/"},"modified":"2026-02-26T14:59:34","modified_gmt":"2026-02-26T13:59:34","slug":"fdm-1-lia-qui-utilise-un-ordinateur-comme-vous","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/fdm-1-lia-qui-utilise-un-ordinateur-comme-vous\/","title":{"rendered":"FDM-1 &#8211; L&#8217;IA qui utilise un ordinateur comme vous"},"content":{"rendered":"<p>\n<a href=\"https:\/\/si.inc\/posts\/fdm1\/\">Standard Intelligence<\/a><br \/>\nvient d&#8217;annoncer <strong>FDM-1<\/strong>, un mod\u00e8le IA capable de contr\u00f4ler n&#8217;importe quel ordinateur&#8230; en regardant l&#8217;\u00e9cran et en cliquant. Comme nous !!<\/p>\n<p>En gros le mod\u00e8le regarde des pixels, comprend l&#8217;interface et ex\u00e9cute des actions. Clics, mouvements de souris, saisie clavier&#8230; et \u00e7a tourne \u00e0 30 FPS avec 11 ms de latence. Donc c&#8217;est beaucoup plus r\u00e9actif que la plupart des fran\u00e7ais devant un formulaire administratif, quoi&#8230; ^^<\/p>\n<p><img decoding=\"async\" src=\"https:\/\/korben.info\/cdn-cgi\/image\/width=1200,fit=scale-down,quality=90,f=avif\/fdm1-modele-action-informatique-general\/fdm1-modele-action-informatique-general-2.png\" alt=\"\" loading=\"lazy\"><\/p>\n<p>Concr\u00e8tement, vous pourriez lui demander de remplir vos tableurs Excel ou Google Sheets, de naviguer dans SAP, Salesforce ou n&#8217;importe quel logiciel m\u00e9tier sous Windows, macOS ou Linux, ou d&#8217;automatiser ces clics d\u00e9biles que vous faites 200 fois par jour. Attention, c&#8217;est pas un bot Selenium ou un macro AutoHotkey hein. C&#8217;est vraiment un truc qui comprend ce qu&#8217;il voit \u00e0 l&#8217;\u00e9cran.<\/p>\n<p>Du coup, \u00e7a se compose de 3 blocs. Un encodeur vid\u00e9o qui compresse le flux visuel, un mod\u00e8le de dynamique inverse, entra\u00een\u00e9 sur 40 000 heures de donn\u00e9es humaines, qui relie les actions aux changements d&#8217;\u00e9cran, et bien s\u00fbr le mod\u00e8le d&#8217;action, qui pr\u00e9dit le prochain clic.<\/p>\n<p>Le truc carr\u00e9ment dingue, c&#8217;est l&#8217;\u00e9chelle d\u2019entrainement de ce mod\u00e8le&#8230; 11 millions d&#8217;heures de vid\u00e9o d&#8217;entra\u00eenement, 80 000 machines virtuelles en parall\u00e8le, un seul GPU NVIDIA H100 qui pilote 42 VMs \u00e0 la fois. \u00c7a repr\u00e9sente plus d&#8217;un million de simulations par heure. Y&#8217;a de quoi faire donc !<\/p>\n<p>Et les applications vont loin&#8230; Par exemple, CAO sur Blender 3D, conduite autonome avec moins d&#8217;une heure de vid\u00e9o \u00e0 1080p, et m\u00eame du fuzzing d&#8217;applications bancaires (Ahaha, je sais \u00e7a va vous plaire \u00e7a !).<\/p>\n<div class=\"video-container\">\n<video controls preload=\"none\"><\/p>\n<pre><code>Votre navigateur ne supporte pas la lecture de vid\u00e9os HTML5. Voici un\n&lt;a href=\"\/fdm1-modele-action-informatique-general\/fdm1-modele-action-informatique-general-1.mp4\"&gt;lien vers la vid\u00e9o&lt;\/a&gt;.\n<\/code><\/pre>\n<p><\/video><\/p>\n<div>\n<p>Si vous connaissez d\u00e9j\u00e0 des agents comme<br \/>\n<a href=\"https:\/\/korben.info\/bytebot-agent-prend-controle-votre-ordinateur.html\">ByteBot<\/a><br \/>\nou<br \/>\n<a href=\"https:\/\/korben.info\/skyvern-automatisation-web-ia-vision-ordinateur.html\">Skyvern<\/a><br \/>\n, FDM-1 joue dans une autre cat\u00e9gorie. Ces outils s&#8217;appuient sur des LLMs pour comprendre ce qu&#8217;ils voient mais FDM-1, lui, fonctionne sans aucun mod\u00e8le de langage. En fait, c&#8217;est du pur apprentissage visuel sans aucun GPT en dessous. C&#8217;est un<br \/>\n<a href=\"https:\/\/korben.info\/open-computer-agent-robot-virtuel-ia-test.html\">agent IA autonome<\/a><br \/>\nsous st\u00e9ro\u00efdes, quoi.<\/p>\n<div class=\"video-container\">\n<video controls preload=\"none\"><\/p>\n<pre><code>Votre navigateur ne supporte pas la lecture de vid\u00e9os HTML5. Voici un\n&lt;a href=\"\/fdm1-modele-action-informatique-general\/fdm1-modele-action-informatique-general-2.mp4\"&gt;lien vers la vid\u00e9o&lt;\/a&gt;.\n<\/code><\/pre>\n<p><\/video><\/p>\n<div>\n<p>Et compar\u00e9 aux solutions RPA classiques genre UiPath ou Automation Anywhere, la diff\u00e9rence est radicale. Le RPA traditionnel, c&#8217;est des scripts qui cassent d\u00e8s qu&#8217;un bouton bouge de 3 pixels. Mais l&#8217;agent de Standard Intelligence lui s&#8217;en fiche puisqu&#8217;il comprend visuellement ce qu&#8217;il voit et saura s&#8217;adapter en quelques minutes. Je sens que les scrapers qui me lisent vont mouiller leur culotte&#8230;<\/p>\n<p>Par contre, c&#8217;est maintenant le moment o\u00f9 je vous d\u00e9\u00e7ois <em>un peu<\/em> car le truc n&#8217;est pas encore dispo publiquement et aucune date n&#8217;est annonc\u00e9e. Et les d\u00e9mos viennent de l&#8217;\u00e9quipe elle-m\u00eame&#8230; donc voil\u00e0, je reste prudent.<\/p>\n<div class=\"video-container\">\n<video controls preload=\"none\"><\/p>\n<pre><code>Votre navigateur ne supporte pas la lecture de vid\u00e9os HTML5. Voici un\n&lt;a href=\"\/fdm1-modele-action-informatique-general\/fdm1-modele-action-informatique-general-3.mp4\"&gt;lien vers la vid\u00e9o&lt;\/a&gt;.\n<\/code><\/pre>\n<p><\/video><\/p>\n<div>\n<p>Et c\u00f4t\u00e9 s\u00e9curit\u00e9, y&#8217;a de quoi flipper un peu car un agent capable de cliquer partout sur n&#8217;importe quelle interface, \u00e7a ouvre la porte au phishing automatis\u00e9 ou au clickjacking \u00e0 grande \u00e9chelle, sauf si des garde-fous s\u00e9rieux sont mis en place (et pour l&#8217;instant, j&#8217;en vois pas).<\/p>\n<p>Bref, c&#8217;est du lourd sur le papier mais reste \u00e0 voir quand on pourra y toucher.<\/p>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>Standard Intelligence vient d&#8217;annoncer FDM-1, un mod\u00e8le IA capable de contr\u00f4ler n&#8217;importe quel ordinateur&#8230; en regardant l&#8217;\u00e9cran et en cliquant. Comme nous !! En gros le mod\u00e8le regarde des pixels, comprend l&#8217;interface et ex\u00e9cute des actions. Clics, mouvements de souris, saisie clavier&#8230; et \u00e7a tourne \u00e0 30 FPS avec 11 ms de latence. Donc c&#8217;est beaucoup plus r\u00e9actif que la plupart des fran\u00e7ais devant un formulaire administratif, quoi&#8230; ^^ Concr\u00e8tement, vous pourriez lui demander de remplir vos tableurs Excel ou Google Sheets, de naviguer dans SAP, Salesforce ou n&#8217;importe quel logiciel m\u00e9tier sous Windows, macOS ou Linux, ou d&#8217;automatiser ces clics d\u00e9biles que vous faites 200 fois par jour. Attention, c&#8217;est pas un bot Selenium ou un macro AutoHotkey hein. C&#8217;est vraiment un truc qui comprend ce qu&#8217;il voit \u00e0 l&#8217;\u00e9cran. Du coup, \u00e7a se compose de 3 blocs. Un encodeur vid\u00e9o qui compresse le flux visuel, un mod\u00e8le de dynamique inverse, entra\u00een\u00e9 sur 40 000 heures de donn\u00e9es humaines, qui relie les actions aux changements d&#8217;\u00e9cran, et bien s\u00fbr le mod\u00e8le d&#8217;action, qui pr\u00e9dit le prochain clic. Le truc carr\u00e9ment dingue, c&#8217;est l&#8217;\u00e9chelle d\u2019entrainement de ce mod\u00e8le&#8230; 11 millions d&#8217;heures de vid\u00e9o d&#8217;entra\u00eenement, 80 000 machines virtuelles en parall\u00e8le, un seul GPU NVIDIA H100 qui pilote 42 VMs \u00e0 la fois. \u00c7a repr\u00e9sente plus d&#8217;un million de simulations par heure. Y&#8217;a de quoi faire donc ! Et les applications vont loin&#8230; Par exemple, CAO sur Blender 3D, conduite autonome avec moins d&#8217;une heure de vid\u00e9o \u00e0 1080p, et m\u00eame du fuzzing d&#8217;applications bancaires (Ahaha, je sais \u00e7a va vous plaire \u00e7a !). Votre navigateur ne supporte pas la lecture de vid\u00e9os HTML5. Voici un &lt;a href=&#8221;\/fdm1-modele-action-informatique-general\/fdm1-modele-action-informatique-general-1.mp4&#8243;&gt;lien vers la vid\u00e9o&lt;\/a&gt;. Si vous connaissez d\u00e9j\u00e0 des agents comme ByteBot ou Skyvern , FDM-1 joue dans une autre cat\u00e9gorie. Ces outils s&#8217;appuient sur des LLMs pour comprendre ce qu&#8217;ils voient mais FDM-1, lui, fonctionne sans aucun mod\u00e8le de langage. En fait, c&#8217;est du pur apprentissage visuel sans aucun GPT en dessous. C&#8217;est un agent IA autonome sous st\u00e9ro\u00efdes, quoi. Votre navigateur ne supporte pas la lecture de vid\u00e9os HTML5. Voici un &lt;a href=&#8221;\/fdm1-modele-action-informatique-general\/fdm1-modele-action-informatique-general-2.mp4&#8243;&gt;lien vers la vid\u00e9o&lt;\/a&gt;. Et compar\u00e9 aux solutions RPA classiques genre UiPath ou Automation Anywhere, la diff\u00e9rence est radicale. Le RPA traditionnel, c&#8217;est des scripts qui cassent d\u00e8s qu&#8217;un bouton bouge de 3 pixels. Mais l&#8217;agent de Standard Intelligence lui s&#8217;en fiche puisqu&#8217;il comprend visuellement ce qu&#8217;il voit et saura s&#8217;adapter en quelques minutes. Je sens que les scrapers qui me lisent vont mouiller leur culotte&#8230; Par contre, c&#8217;est maintenant le moment o\u00f9 je vous d\u00e9\u00e7ois un peu car le truc n&#8217;est pas encore dispo publiquement et aucune date n&#8217;est annonc\u00e9e. Et les d\u00e9mos viennent de l&#8217;\u00e9quipe elle-m\u00eame&#8230; donc voil\u00e0, je reste prudent. Votre navigateur ne supporte pas la lecture de vid\u00e9os HTML5. Voici un &lt;a href=&#8221;\/fdm1-modele-action-informatique-general\/fdm1-modele-action-informatique-general-3.mp4&#8243;&gt;lien vers la vid\u00e9o&lt;\/a&gt;. Et c\u00f4t\u00e9 s\u00e9curit\u00e9, y&#8217;a de quoi flipper un peu car un agent capable de cliquer partout sur n&#8217;importe quelle interface, \u00e7a ouvre la porte au phishing automatis\u00e9 ou au clickjacking \u00e0 grande \u00e9chelle, sauf si des garde-fous s\u00e9rieux sont mis en place (et pour l&#8217;instant, j&#8217;en vois pas). Bref, c&#8217;est du lourd sur le papier mais reste \u00e0 voir quand on pourra y toucher.<\/p>\n","protected":false},"author":1,"featured_media":2402,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-2401","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2401","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=2401"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2401\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/2402"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=2401"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}