﻿﻿{"id":1861,"date":"2025-12-21T10:25:41","date_gmt":"2025-12-21T09:25:41","guid":{"rendered":"https:\/\/elearningsamba.com\/index.php\/annas-archive-vient-de-sauvegarder-la-totalite-de-spotify\/"},"modified":"2025-12-21T10:25:41","modified_gmt":"2025-12-21T09:25:41","slug":"annas-archive-vient-de-sauvegarder-la-totalite-de-spotify","status":"publish","type":"page","link":"https:\/\/elearningsamba.com\/index.php\/annas-archive-vient-de-sauvegarder-la-totalite-de-spotify\/","title":{"rendered":"Anna&#8217;s Archive vient de sauvegarder la totalit\u00e9 de Spotify"},"content":{"rendered":"<p>Vous connaissez<br \/>\n<a href=\"https:\/\/fr.annas-archive.org\/\">Anna&#8217;s Archive<\/a><br \/>\n, cette biblioth\u00e8que pirate qui sauvegarde tous les livres et articles scientifiques de l&#8217;humanit\u00e9 ? H\u00e9 bien ils viennent de s&#8217;attaquer \u00e0 un nouveau chantier : <strong>sauvegarder Spotify<\/strong> (en tout cas le plus possible), soit 256 millions de morceaux + de la m\u00e9tadonn\u00e9es, soit ~300 t\u00e9raoctets de donn\u00e9es !!<\/p>\n<p>Anna&#8217;s Archive se focalise normalement sur le texte (livres, et documents de recherche) parce que c&#8217;est ce qui a la plus haute densit\u00e9 d&#8217;information mais leur mission, c&#8217;est de pr\u00e9server le savoir et la culture de l&#8217;humanit\u00e9, et \u00e7a inclut donc aussi la musique. Et comme ils ont trouv\u00e9 un moyen de scraper Spotify \u00e0 grande \u00e9chelle, ils se sont dit &#8220;<em>Hey pourquoi pas ? On est des oufs<\/em>&#8220;.<\/p>\n<p>Et \u00e7a donne la plus grande base de donn\u00e9es de m\u00e9tadonn\u00e9es musicales jamais rendue publique, avec 186 millions d&#8217;ISRCs uniques (ces codes qui identifient chaque enregistrement). Pour vous donner un ordre de grandeur, MusicBrainz n&#8217;en a que 5 millions. Niveau fichiers audio, ils ont aussi archiv\u00e9 environ 86 millions de morceaux, ce qui repr\u00e9sente 99,6% des \u00e9coutes sur la plateforme (m\u00eame si \u00e7a ne fait &#8220;que&#8221; 37% du catalogue total). Donc si vous \u00e9coutez un morceau au hasard sur Spotify, y&#8217;a 99,6% de chances qu&#8217;il soit dans l&#8217;archive.<\/p>\n<p>Pour trier tout \u00e7a, ils ont utilis\u00e9 la m\u00e9trique &#8220;popularit\u00e9&#8221; de Spotify qui va de 0 \u00e0 100. Ainsi, pour les morceaux avec une popularit\u00e9 sup\u00e9rieure \u00e0 0, ils ont r\u00e9cup\u00e9r\u00e9 quasiment tout en qualit\u00e9 originale (OGG Vorbis 160kbit\/s) et pour les morceaux \u00e0 popularit\u00e9 0 (soit ~70% du catalogue, des trucs que personne n&#8217;\u00e9coute), ils ont r\u00e9encod\u00e9 en OGG Opus 75kbit\/s pour gagner de la place\u2026 mais ils ne sont pas all\u00e9s au bout de la longue tra\u00eene (trop de stockage pour trop peu de gain, et pas mal de contenu \u201cbof\u201d \u00e0 popularit\u00e9 0). Pour 99% des gens \u00e7a sonne pareil, m\u00eame si je sais que les audiophiles vont me tuer dans les commentaires ^^.<\/p>\n<p>En regardant les stats qu&#8217;ils ont produit \u00e0 partir de ce qui a \u00e9t\u00e9 scrapp\u00e9, les 3 morceaux les plus populaires (Die With A Smile de Lady Gaga et Bruno Mars, BIRDS OF A FEATHER de Billie Eilish, et DtMF de Bad Bunny) ont \u00e9t\u00e9 stream\u00e9s plus de fois que les 20 \u00e0 100 millions de morceaux les moins populaires combin\u00e9s. Bon, ils pr\u00e9cisent aussi que la popularit\u00e9 est tr\u00e8s d\u00e9pendante du moment, donc ce top est un peu arbitraire mais \u00e7a montre \u00e0 quel point la longue tra\u00eene est looooongue sur les plateformes de streaming&#8230;<\/p>\n<p>Apr\u00e8s le probl\u00e8me avec la pr\u00e9servation musicale actuelle (ce qu&#8217;on retrouve sur les sites de Torrent par exemple), c&#8217;est qu&#8217;elle se concentre uniquement sur les artistes populaires et la qualit\u00e9 maximale (FLAC lossless). Du coup, y&#8217;a plein de musique obscure qui ne survit que si une seule personne d\u00e9cide de la partager. Et ces fichiers sont souvent mal seed\u00e9s. Et c&#8217;est pour \u00e7a que je trouve l&#8217;approche d&#8217;Anna&#8217;s Archive plut\u00f4t pas mal car elle consiste \u00e0 archiver tout ce qui existe (ou presque), m\u00eame en qualit\u00e9 &#8220;suffisante&#8221;, plut\u00f4t que de se concentrer sur un sous-ensemble en qualit\u00e9 parfaite.<\/p>\n<p>Et comme vous vous en doutez, tout est distribu\u00e9 via des torrents, avec les m\u00e9tadonn\u00e9es d\u00e9j\u00e0 disponibles (moins de 200 Go compress\u00e9s) et les fichiers audio qui arrivent progressivement par ordre de popularit\u00e9. Note la base s&#8217;arr\u00eate \u00e0 juillet 2025, donc tout ce qui est sorti apr\u00e8s peut ne pas \u00eatre l\u00e0 (m\u00eame s&#8217;il y a quelques exceptions).<\/p>\n<p>Bref, c&#8217;est la premi\u00e8re archive de pr\u00e9servation musicale vraiment ouverte, que n&#8217;importe qui peut mirrorer s&#8217;il a assez de stockage et voil\u00e0 comment gr\u00e2ce \u00e0 l&#8217;aide de tout le monde, le patrimoine musical de l&#8217;humanit\u00e9 sera prot\u00e9g\u00e9 pour toujours des catastrophes naturelles, des guerres, des coupes budg\u00e9taires et autres d\u00e9sastres&#8230; Par contre, pas s\u00fbr que \u00e7a la prot\u00e8ge de la boulimie des IA g\u00e9n\u00e9ratives.<\/p>\n<p>Merci \u00e0 Lilian pour l&#8217;info !<\/p>\n<p>\n<a href=\"https:\/\/annas-archive.org\/blog\/backing-up-spotify.html\">Source<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Vous connaissez Anna&#8217;s Archive , cette biblioth\u00e8que pirate qui sauvegarde tous les livres et articles scientifiques de l&#8217;humanit\u00e9 ? H\u00e9 bien ils viennent de s&#8217;attaquer \u00e0 un nouveau chantier : sauvegarder Spotify (en tout cas le plus possible), soit 256 millions de morceaux + de la m\u00e9tadonn\u00e9es, soit ~300 t\u00e9raoctets de donn\u00e9es !! Anna&#8217;s Archive se focalise normalement sur le texte (livres, et documents de recherche) parce que c&#8217;est ce qui a la plus haute densit\u00e9 d&#8217;information mais leur mission, c&#8217;est de pr\u00e9server le savoir et la culture de l&#8217;humanit\u00e9, et \u00e7a inclut donc aussi la musique. Et comme ils ont trouv\u00e9 un moyen de scraper Spotify \u00e0 grande \u00e9chelle, ils se sont dit &#8220;Hey pourquoi pas ? On est des oufs&#8220;. Et \u00e7a donne la plus grande base de donn\u00e9es de m\u00e9tadonn\u00e9es musicales jamais rendue publique, avec 186 millions d&#8217;ISRCs uniques (ces codes qui identifient chaque enregistrement). Pour vous donner un ordre de grandeur, MusicBrainz n&#8217;en a que 5 millions. Niveau fichiers audio, ils ont aussi archiv\u00e9 environ 86 millions de morceaux, ce qui repr\u00e9sente 99,6% des \u00e9coutes sur la plateforme (m\u00eame si \u00e7a ne fait &#8220;que&#8221; 37% du catalogue total). Donc si vous \u00e9coutez un morceau au hasard sur Spotify, y&#8217;a 99,6% de chances qu&#8217;il soit dans l&#8217;archive. Pour trier tout \u00e7a, ils ont utilis\u00e9 la m\u00e9trique &#8220;popularit\u00e9&#8221; de Spotify qui va de 0 \u00e0 100. Ainsi, pour les morceaux avec une popularit\u00e9 sup\u00e9rieure \u00e0 0, ils ont r\u00e9cup\u00e9r\u00e9 quasiment tout en qualit\u00e9 originale (OGG Vorbis 160kbit\/s) et pour les morceaux \u00e0 popularit\u00e9 0 (soit ~70% du catalogue, des trucs que personne n&#8217;\u00e9coute), ils ont r\u00e9encod\u00e9 en OGG Opus 75kbit\/s pour gagner de la place\u2026 mais ils ne sont pas all\u00e9s au bout de la longue tra\u00eene (trop de stockage pour trop peu de gain, et pas mal de contenu \u201cbof\u201d \u00e0 popularit\u00e9 0). Pour 99% des gens \u00e7a sonne pareil, m\u00eame si je sais que les audiophiles vont me tuer dans les commentaires ^^. En regardant les stats qu&#8217;ils ont produit \u00e0 partir de ce qui a \u00e9t\u00e9 scrapp\u00e9, les 3 morceaux les plus populaires (Die With A Smile de Lady Gaga et Bruno Mars, BIRDS OF A FEATHER de Billie Eilish, et DtMF de Bad Bunny) ont \u00e9t\u00e9 stream\u00e9s plus de fois que les 20 \u00e0 100 millions de morceaux les moins populaires combin\u00e9s. Bon, ils pr\u00e9cisent aussi que la popularit\u00e9 est tr\u00e8s d\u00e9pendante du moment, donc ce top est un peu arbitraire mais \u00e7a montre \u00e0 quel point la longue tra\u00eene est looooongue sur les plateformes de streaming&#8230; Apr\u00e8s le probl\u00e8me avec la pr\u00e9servation musicale actuelle (ce qu&#8217;on retrouve sur les sites de Torrent par exemple), c&#8217;est qu&#8217;elle se concentre uniquement sur les artistes populaires et la qualit\u00e9 maximale (FLAC lossless). Du coup, y&#8217;a plein de musique obscure qui ne survit que si une seule personne d\u00e9cide de la partager. Et ces fichiers sont souvent mal seed\u00e9s. Et c&#8217;est pour \u00e7a que je trouve l&#8217;approche d&#8217;Anna&#8217;s Archive plut\u00f4t pas mal car elle consiste \u00e0 archiver tout ce qui existe (ou presque), m\u00eame en qualit\u00e9 &#8220;suffisante&#8221;, plut\u00f4t que de se concentrer sur un sous-ensemble en qualit\u00e9 parfaite. Et comme vous vous en doutez, tout est distribu\u00e9 via des torrents, avec les m\u00e9tadonn\u00e9es d\u00e9j\u00e0 disponibles (moins de 200 Go compress\u00e9s) et les fichiers audio qui arrivent progressivement par ordre de popularit\u00e9. Note la base s&#8217;arr\u00eate \u00e0 juillet 2025, donc tout ce qui est sorti apr\u00e8s peut ne pas \u00eatre l\u00e0 (m\u00eame s&#8217;il y a quelques exceptions). Bref, c&#8217;est la premi\u00e8re archive de pr\u00e9servation musicale vraiment ouverte, que n&#8217;importe qui peut mirrorer s&#8217;il a assez de stockage et voil\u00e0 comment gr\u00e2ce \u00e0 l&#8217;aide de tout le monde, le patrimoine musical de l&#8217;humanit\u00e9 sera prot\u00e9g\u00e9 pour toujours des catastrophes naturelles, des guerres, des coupes budg\u00e9taires et autres d\u00e9sastres&#8230; Par contre, pas s\u00fbr que \u00e7a la prot\u00e8ge de la boulimie des IA g\u00e9n\u00e9ratives. Merci \u00e0 Lilian pour l&#8217;info ! Source<\/p>\n","protected":false},"author":1,"featured_media":1862,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"give_campaign_id":0,"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"_kadence_starter_templates_imported_post":false,"footnotes":""},"class_list":["post-1861","page","type-page","status-publish","has-post-thumbnail","hentry"],"campaignId":"","_links":{"self":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/1861","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/comments?post=1861"}],"version-history":[{"count":0,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/pages\/1861\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media\/1862"}],"wp:attachment":[{"href":"https:\/\/elearningsamba.com\/index.php\/wp-json\/wp\/v2\/media?parent=1861"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}