{"id":1671,"date":"2025-11-24T15:25:06","date_gmt":"2025-11-24T14:25:06","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/evo-2-lia-qui-ecrit-de-ladn-fonctionnel\/"},"modified":"2025-11-24T15:25:06","modified_gmt":"2025-11-24T14:25:06","slug":"evo-2-lia-qui-ecrit-de-ladn-fonctionnel","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/evo-2-lia-qui-ecrit-de-ladn-fonctionnel\/","title":{"rendered":"Evo 2 \u2013 L’IA qui \u00e9crit de l’ADN fonctionnel"},"content":{"rendered":"

Vous pensiez que les IA g\u00e9n\u00e9ratives se contentaient de pondre des images de chats \u00e0 6 pattes fa\u00e7on Ghibli et des textes pomp\u00e9s sur Wikip\u00e9dia ? H\u00e9 bien, je vais vous d\u00e9cevoir car des chercheurs de l\u2019Arc Institute, Stanford, NVIDIA, UC Berkeley et d\u2019autres viennent de pousser le concept beaucoup, beaucoup plus loin\u2026<\/p>\n

En effet, ils ont cr\u00e9\u00e9 Evo 2<\/strong>, le plus grand mod\u00e8le d\u2019IA pour la biologie jamais rendu public, capable de lire, comprendre et m\u00eame \u00e9crire de l\u2019ADN fonctionnel<\/strong>. Et cerise sur le g\u00e2teau, une \u00e9tude publi\u00e9e cette semaine dans
\nNature<\/a>
\n<\/strong> d\u00e9montre qu\u2019on peut utiliser cette technologie pour cr\u00e9er des prot\u00e9ines totalement nouvelles qui n\u2019ont jamais exist\u00e9 dans la nature\u2026 et qui fonctionnent vraiment !<\/p>\n

Le projet
\n Evo 2<\/a>
\nfonctionne comme un LLM classique, sauf qu\u2019au lieu de lui faire bouffer du texte, on lui a fait avaler 9,3 trillions de nucl\u00e9otides<\/strong> (les fameux A, T, G, C qui composent l\u2019ADN) provenant de plus de 128 000 g\u00e9nomes<\/strong> couvrant tous les domaines du vivant : bact\u00e9ries, arch\u00e9es, virus, mais aussi humains, plantes et autres eucaryotes.<\/p>\n

Leur mod\u00e8le existe en deux versions : 7 milliards et 40 milliards de param\u00e8tres (comparable aux gros LLM actuels) mais sa vraie force, c\u2019est sa fen\u00eatre de contexte d\u2019un million de paires de bases<\/strong>, soit 8 fois plus que son pr\u00e9d\u00e9cesseur Evo 1. Pour vous donner une id\u00e9e, c\u2019est suffisant pour analyser un chromosome entier de levure ou un g\u00e9nome bact\u00e9rien complet en une seule passe.<\/p>\n

Pour entra\u00eener ce monstre, il a fallu mobiliser plus de 2 000 GPU NVIDIA H100<\/strong> pendant plusieurs mois sur le cloud DGX, soit environ 150 fois plus de puissance de calcul qu\u2019AlphaFold. L\u2019architecture utilis\u00e9e, baptis\u00e9e
\nStripedHyena 2<\/a>
\n<\/strong>, permet un entra\u00eenement 3 fois plus rapide que les transformers classiques sur les longues s\u00e9quences et petit fun fact, Greg Brockman, cofondateur d\u2019OpenAI, a particip\u00e9 au d\u00e9veloppement de cette architecture pendant son ann\u00e9e sabbatique.<\/p>\n

L\u2019une des applications les plus impressionnantes d\u2019Evo 2, c\u2019est sa capacit\u00e9 \u00e0 pr\u00e9dire si une mutation g\u00e9n\u00e9tique risque de causer une maladie, et ce, sans aucun entra\u00eenement sp\u00e9cifique<\/strong>. Les chercheurs ont test\u00e9 le mod\u00e8le sur le g\u00e8ne BRCA1<\/strong>, connu pour son lien avec le cancer du sein. R\u00e9sultat, Evo 2 a pr\u00e9dit avec plus de 90% de pr\u00e9cision<\/strong> quelles mutations \u00e9taient pathog\u00e8nes et lesquelles \u00e9taient b\u00e9nignes.<\/p>\n

Mieux encore, Evo 2 est actuellement le seul mod\u00e8le capable de pr\u00e9dire l\u2019effet des mutations dans les r\u00e9gions non-codantes<\/strong> de l\u2019ADN (les fameuses parties qu\u2019on pensait \u201cinutiles\u201d et qu\u2019on appelait autrefois \u201cADN poubelle\u201d). Pour les variants codants, il est second meilleur, mais pour les variants non-codants, il est carr\u00e9ment le top du top of the pop !<\/p>\n

Et pour prouver que le mod\u00e8le ne fait pas que r\u00e9gurgiter ses donn\u00e9es d\u2019entra\u00eenement, l\u2019\u00e9quipe lui a demand\u00e9 d\u2019annoter le g\u00e9nome du mammouth laineux<\/strong>, une esp\u00e8ce qui n\u2019\u00e9tait \u00e9videmment pas dans son dataset. Et le mod\u00e8le a correctement identifi\u00e9 la structure exons-introns du g\u00e9nome de ce pachyderme (aujourd\u2019hui disparu parce que j\u2019ai mang\u00e9 le dernier), d\u00e9montrant qu\u2019il a vraiment \u201ccompris\u201d les r\u00e8gles fondamentales du vivant.<\/p>\n

Mais l\u00e0 o\u00f9 \u00e7a devient vraiment dingue, c\u2019est ce concept de \u201cdesign s\u00e9mantique\u201d<\/strong>. En effet, dans les g\u00e9nomes bact\u00e9riens, les g\u00e8nes qui travaillent ensemble sont souvent positionn\u00e9s c\u00f4te \u00e0 c\u00f4te, du coup, si on donne \u00e0 l\u2019IA le contexte g\u00e9nomique d\u2019une fonction particuli\u00e8re, elle peut g\u00e9n\u00e9rer de nouveaux g\u00e8nes ayant des fonctions similaires.<\/p>\n

En gros, on prompte l\u2019IA avec de l\u2019ADN au lieu de texte, et comme un bon LLM qui compl\u00e8te vos phrases, Evo compl\u00e8te\u2026 vos g\u00e9nomes.<\/p>\n

Pour tester cette approche, les chercheurs ont d\u2019abord g\u00e9n\u00e9r\u00e9 une toxine bact\u00e9rienne bas\u00e9e sur une toxine connue. Ils ont ensuite utilis\u00e9 cette toxine comme \u201cprompt\u201d pour demander \u00e0 l\u2019IA de cr\u00e9er des antitoxines correspondantes. Sur 10 propositions<\/strong>, la moiti\u00e9 ont r\u00e9ussi \u00e0 neutraliser partiellement la toxine, et deux d\u2019entre elles l\u2019ont compl\u00e8tement d\u00e9sactiv\u00e9e avec 95-100% de survie cellulaire.<\/p>\n

Et ces antitoxines n\u2019avaient que 21 \u00e0 27% de similarit\u00e9<\/strong> avec les prot\u00e9ines existantes, donc autant dire qu\u2019Evo a invent\u00e9 quelque chose de quasi-nouveau ! Et ce n\u2019est pas du bricolage al\u00e9atoire puisque l\u2019analyse montre que ces prot\u00e9ines seraient l\u2019\u00e9quivalent d\u2019un assemblage de 15 \u00e0 20 morceaux<\/strong> de prot\u00e9ines diff\u00e9rentes, recombin\u00e9s de fa\u00e7on in\u00e9dite.<\/p>\n

Et ce qui est encore plus impressionnant, c\u2019est que certaines de ces antitoxines g\u00e9n\u00e9r\u00e9es fonctionnent contre plusieurs toxines diff\u00e9rentes<\/strong> utilisant des m\u00e9canismes d\u2019action distincts. L\u2019une d\u2019elles neutralise trois toxines naturelles, alors que l\u2019antitoxine naturelle \u00e9quivalente ne fonctionne que contre sa toxine d\u2019origine. L\u2019IA aurait donc identifi\u00e9 une compatibilit\u00e9 fonctionnelle plus large que ce qu\u2019on observe dans la nature !<\/p>\n