{"id":2515,"date":"2026-03-13T15:56:16","date_gmt":"2026-03-13T14:56:16","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/google-lance-gemini-embedding-2-un-modele-qui-comprend-texte-image-video-et-audio-en-meme-temps\/"},"modified":"2026-03-13T15:56:16","modified_gmt":"2026-03-13T14:56:16","slug":"google-lance-gemini-embedding-2-un-modele-qui-comprend-texte-image-video-et-audio-en-meme-temps","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/google-lance-gemini-embedding-2-un-modele-qui-comprend-texte-image-video-et-audio-en-meme-temps\/","title":{"rendered":"Google lance Gemini Embedding 2, un mod\u00e8le qui comprend texte, image, vid\u00e9o et audio en m\u00eame temps"},"content":{"rendered":"

Google vient de lancer Gemini Embedding 2, son premier mod\u00e8le d’embedding nativement multimodal. Texte, images, vid\u00e9o, audio et documents sont projet\u00e9s dans un m\u00eame espace vectoriel, ce qui permet de faire de la recherche s\u00e9mantique crois\u00e9e entre diff\u00e9rents types de contenus.<\/p>\n

Un seul mod\u00e8le pour tout indexer<\/h2>\n
Jusqu’\u00e0 pr\u00e9sent, les mod\u00e8les d’embedding se limitaient au texte. Vous vouliez indexer des images ou de la vid\u00e9o, il fallait un autre pipeline. Gemini Embedding 2 fait tout d’un coup : vous lui envoyez du texte, des images (jusqu’\u00e0 6), de la vid\u00e9o (jusqu’\u00e0 120 secondes) ou de l’audio (jusqu’\u00e0 80 secondes), et il vous renvoie un vecteur dans le m\u00eame espace. Le mod\u00e8le g\u00e8re plus de 100 langues et prend en charge jusqu’\u00e0 8 192 tokens en entr\u00e9e pour le texte.<\/p>\n
C\u00f4t\u00e9 technique, le mod\u00e8le utilise le Matryoshka Representation Learning, ce qui permet de choisir la taille des embeddings entre 128 et 3 072 dimensions. Google recommande 768 dimensions pour un bon compromis entre qualit\u00e9 et stockage, ce qui divise par quatre l’espace disque par rapport \u00e0 la taille maximale.<\/p>\n

Les tarifs et la concurrence<\/h2>\n
Le texte est factur\u00e9 0,20 dollar par million de tokens, avec un mode batch \u00e0 moiti\u00e9 prix. Les images montent \u00e0 0,45 dollar, l’audio \u00e0 6,50 dollars et la vid\u00e9o \u00e0 12 dollars par million de tokens. Un palier gratuit est disponible pour tester.<\/p>\n
C\u00f4t\u00e9 performances, Google affiche de bons scores sur les benchmarks MTEB : 69,9 en multilingue et 84,0 en code. Mais pour du texte seul, OpenAI reste bien moins cher avec son text-embedding-3-small \u00e0 0,02 dollar par million de tokens, soit dix fois moins.<\/p>\n
Le mod\u00e8le est disponible via l’API Gemini et Vertex AI, et compatible avec LangChain, LlamaIndex, Weaviate ou ChromaDB.<\/p>\n
Le vrai argument de Google ici, c’est le multimodal. Si vous avez besoin d’indexer des catalogues produits avec photos et descriptions dans le m\u00eame vecteur, ou de faire de la recherche dans des archives vid\u00e9o, il n’y a pas d’\u00e9quivalent chez OpenAI pour le moment.<\/p>\n
Mais pour du texte pur, la diff\u00e9rence de prix est quand m\u00eame importante. On attend de voir comment \u00e7a se comporte en production, et si les scores MTEB se confirment sur des cas d’usage r\u00e9els.<\/p>\n
Source :
\nBlog Google<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"
Google vient de lancer Gemini Embedding 2, son premier mod\u00e8le d’embedding nativement multimodal. Texte, images, vid\u00e9o, audio et documents sont projet\u00e9s dans un m\u00eame espace vectoriel, ce qui permet de faire de la recherche s\u00e9mantique crois\u00e9e entre diff\u00e9rents types de contenus. Un seul mod\u00e8le pour tout indexer Jusqu’\u00e0 pr\u00e9sent, les mod\u00e8les d’embedding se limitaient au texte. Vous vouliez indexer des images ou de la vid\u00e9o, il fallait un autre pipeline. Gemini Embedding 2 fait tout d’un coup : vous lui envoyez du texte, des images (jusqu’\u00e0 6), de la vid\u00e9o (jusqu’\u00e0 120 secondes) ou de l’audio (jusqu’\u00e0 80 secondes), et il vous renvoie un vecteur dans le m\u00eame espace. Le mod\u00e8le g\u00e8re plus de 100 langues et prend en charge jusqu’\u00e0 8 192 tokens en entr\u00e9e pour le texte. C\u00f4t\u00e9 technique, le mod\u00e8le utilise le Matryoshka Representation Learning, ce qui permet de choisir la taille des embeddings entre 128 et 3 072 dimensions. Google recommande 768 dimensions pour un bon compromis entre qualit\u00e9 et stockage, ce qui divise par quatre l’espace disque par rapport \u00e0 la taille maximale. Les tarifs et la concurrence Le texte est factur\u00e9 0,20 dollar par million de tokens, avec un mode batch \u00e0 moiti\u00e9 prix. Les images montent \u00e0 0,45 dollar, l’audio \u00e0 6,50 dollars et la vid\u00e9o \u00e0 12 dollars par million de tokens. Un palier gratuit est disponible pour tester. C\u00f4t\u00e9 performances, Google affiche de bons scores sur les benchmarks MTEB : 69,9 en multilingue et 84,0 en code. Mais pour du texte seul, OpenAI reste bien moins cher avec son text-embedding-3-small \u00e0 0,02 dollar par million de tokens, soit dix fois moins. Le mod\u00e8le est disponible via l’API Gemini et Vertex AI, et compatible avec LangChain, LlamaIndex, Weaviate ou ChromaDB. Le vrai argument de Google ici, c’est le multimodal. Si vous avez besoin d’indexer des catalogues produits avec photos et descriptions dans le m\u00eame vecteur, ou de faire de la recherche dans des archives vid\u00e9o, il n’y a pas d’\u00e9quivalent chez OpenAI pour le moment. Mais pour du texte pur, la diff\u00e9rence de prix est quand m\u00eame importante. On attend de voir comment \u00e7a se comporte en production, et si les scores MTEB se confirment sur des cas d’usage r\u00e9els. Source : Blog Google<\/p>\n","protected":false},"author":1,"featured_media":2516,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-2515","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2515","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=2515"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/2515\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/2516"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=2515"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}