Dans les entrailles des algorithmes de recommandation musicale

À écouter au casque
Dans les entrailles des algorithmes de recommandation musicale
Crédits : FPVmat/Unsplash

Comment fonctionnent les algorithmes de recommandation ? Quels effets ont-ils sur les internautes ? Sur le monde musical hors ligne ? Petit tour de la question grâce aux travaux du laboratoire d’innovation numérique de la CNIL.

27 % du chiffre d'affaires total du secteur de la musique en 2018 pour Spotify, 41 % des morceaux que nous écoutions en 2019… Les chiffres affichés par les plateformes de streaming musical sont mirobolants. Il reste assez compliqué, pourtant, de comprendre comment fonctionne leur machinerie technique, comment leurs algorithmes jouent sur nos goûts, et ce qu’elles font, aussi, de nos données (les données d’usage de Deezer ou d'Apple Music sont-elles vraiment aussi importantes que celles cédées à Doctolib ?). 

Heureusement, mi-décembre, le laboratoire d’innovation numérique de la CNIL (LINC) a publié un dossier en quatre épisodes sur les algorithmes de recommandation des plateformes de streaming. L’occasion de se pencher avec un exemple précis – celui de la musique, donc – sur les effets et les usages des algorithmes sur les internautes et la société. 

Qu'est-ce qu'un bon algorithme de recommandation ?

Pour détailler les effets d’une technologie, il faut commencer par la définir : le LINC s’y attelle dès le premier épisode de son rapport avec les travaux de Rishabh Mehrotra. Selon ce docteur en apprentissage machine, un bon algorithme de recommandation répond à trois grands principes :

  • Similarité : la machine propose un contenu cohérent avec les préférences et comportements de l’utilisateur,
  • Familiarité : elle propose des éléments déjà connus, que l’internaute apprécie. Cela permet d’ailleurs de renforcer sa confiance dans le système de recommandation,
  • Découverte : elle propose du neuf, elle évite la stagnation de l’utilisateur. Cet élément joue beaucoup dans la fidélisation des auditeurs.

Ce que l'internaute fournit à la machine

Pour faire tout cela, il vaut mieux bien connaître l’auditeur. Depuis leur création, les plateformes de streaming récoltent donc toutes les données qu’elles peuvent sur leurs utilisateurs. Il existe une difficulté de taille, cela dit : nos goûts musicaux changent. Selon l’endroit où nous sommes, l’heure de la journée, l’humeur ou encore l’activité, nos envies musicales varient.

Selon le LINC, les plateformes ont pris conscience de l’importance de ce contexte autour de l’année 2014. Cela s’est par exemple traduit par le dépôt d’un brevet de reconnaissance vocale de l’environnement par Spotify, dont les informations, croisées à d’autres, doivent théoriquement l’aider à deviner l’état émotionnel de l’internaute. Un nouveau problème émerge ici : rien ne dit que, traversés par la même émotion, vous et moi nous tournions vers le même type de morceaux.

Le laboratoire ne tranche pas sur l’efficacité des recommandations des plateformes, il souligne plutôt l'ampleur des données récoltées : vu leur nombre, l’analyse de la musique écoutée par un utilisateur devient probablement l’une des meilleures photographies de sa personnalité ou de son état émotionnel à un instant T.

Ce que la machine fait aux auditeurs

De concert avec une partie du monde numérique, les plateformes ont tendance à considérer leurs auditeurs comme passifs. Dans le deuxième épisode de son rapport, le LINC s’interroge donc sur le profil réel de ces usagers.

Par delà la liberté et la dignité, de Burrhus Skinner ou bien plus récemment Hooked : how to build habit forming products, de Nir Eyal, sont autant d’ouvrages qui dépeignent les internautes en êtres instinctifs. Le premier, de manière négative – l’auteur décrit une technologie utilisée à des fins de manipulations –, le second, de façon bien plus positive, suggérant aux entreprises de faire développer des habitudes d’usage aux utilisateurs pour les fidéliser.

Si cette seconde approche transparaît dans les prises de paroles du fondateur de Netflix (il a déclaré que son plus grand concurrent était le sommeil), ou dans les travaux de Lu Han et Kat Zhou, qui s’intéressent chez Spotify aux questions de design éthique, les utilisateurs sont bien plus actifs que ce que ces idées laissent croire. 

En 2019, Jean-Samuel Beuscart, Samuel Coavoux et Sisley Maillard montrent par exemple qu’en dehors des 58,7 % de morceaux écoutés depuis le « stock » qu’est la bibliothèque de l’usager, 16,5% viennent de sa démarche autonome et seulement 13 % d’une démarche passive purement sélectionnée par les machines. C’est à peine plus que les recommandations classiques des pairs, des journalistes et autres influenceurs. 

Internaute - algorithme, la double influence

Par ailleurs, les internautes choisissent les outils, y compris algorithmiques, qui leur conviennent le mieux. Sur Spotify, celui qui souhaite découvrir de nouveaux morceaux optera plus pour le Radar des Sorties, par exemple, tandis que celle qui veut creuser le sillon d’un style apprécié pourra utiliser son Daily Mix.

Si la dichotomie passif/actif est riche pour comprendre les enjeux de la recommandation, elle ne permet donc pas de dessiner un tableau parfait de l’utilisateur moyen. Celui-ci est humain, il est donc pluriel – la LINC cite ici Deleuze et ses « dividus » –, et varie selon son profil, l’heure du jour, l’humeur, etc. 

En répondant à cette problématique par l’ajout de données contextuelles, les plateformes se sont mises à proposer des morceaux en fonction des goûts de nos voisins. Elles nous font découvrir morceaux et courants musicaux, influant ainsi nos propres sensibilités. Peut-être, en fait, que les recommandations algorithmiques participent à créer certaines des multiples formes de nos individualités. 

Les biais de la recommandation

Pour vraiment comprendre dans quelle mesure elles le feraient, toutefois, il faut évoquer ce que ces outils oublient. Citant plusieurs scientifiques, le troisième épisode du rapport du LINC dénombre trois principaux biais susceptibles d’être retrouvés dans tous types d’algorithmes :

  • Ceux dus aux jeux de données utilisés. Si les informations recueillies contiennent des biais (ce qui est probable puisque la société elle-même en est pleine), la machine risque de les reproduire, voire de les amplifier ;
  • Celle du « biais de société ». Plus directement due aux représentations faussées des développeurs, cette déformation est inscrite dans leurs programmes. Dans le cas des plateformes de streaming, le fait qu’elles soient très principalement construites par des équipes d’ingénieurs masculins (comme dans le reste de l’industrie) ayant fait de longues études, il est probable que les spécificités de leurs expériences et visions du monde soient projetées dans les machines algorithmiques ;
  • Les derniers sont liés aux objectifs mêmes des outils construits – en l’occurrence, de rentabilité – et les critères d’efficacité choisis.

Celles et ceux laissés de côté… le sont jusqu’IRL

Le LINC constate que deux grands domaines concentrent la plupart des biais des plateformes de streaming : le genre – les artistes femmes n’apparaissent pas avant le 7 ou 8e morceau recommandé – et la diversité culturelle.

Le premier n’a rien de neuf : les femmes sont sous-représentées dans beaucoup de bases de données et dans le monde de la musique. Cependant, plusieurs tests ont été menés, qui concluent que même avec des bases adaptées de sorte à « sur-représenter » des femmes, les algorithmes de recommandations produisent des playlists à dominante masculine.

Résultat, si 45 % des adeptes de streaming sont des femmes, seulement 23,2 % des artistes écoutés sur Spotify le sont aussi (groupes mixtes inclus). Ce déséquilibre joue sur la visibilité, mais aussi, par effet rebond, sur la popularité et les revenus des musiciennes. 

Côté diversité, le streaming a permis de remettre un peu en cause la domination commerciale anglo-saxonne. Néanmoins, écrit le LINC, « bien qu’une proportion de plus en plus large des utilisateurs de plateformes de streaming ne soient pas anglo-saxons, la majorité des hits restent en langue anglaise ». Comme vu plus tôt, cette sous-représentation peut jouer sur nos visions du monde. En substance, si l’on entend moins souvent les musiques non-anglo-saxonnes, on peut finir par en déduire qu’elle est de moindre qualité.

Une piste de solution : la transparence

Toutes ces questions sont essentielles dans la mesure où les algorithmes de recommandation étudiés sont construits par des entreprises privées qui, elles-mêmes, évoluent dans un contexte économique précis.

Pour ce qui est d’adapter les outils algorithmiques, le laboratoire de la CNIL mentionne la vaste question de la transparence des outils que nous utilisons. En vertu du RGPD, les internautes devraient effectivement avoir accès à un minimum d’explications.

Les travaux de Darius Afchar suggèrent par exemple de s’appuyer sur trois axes pour fournir des éléments de compréhension à l’usager : les plateformes pourraient détailler les caractéristiques principales de leur processus de suggestion, comparer la recommandation étudiée à d’autres morceaux appréciés par l’usager, expliquer le raisonnement appliqué par l’algorithme.

Business models et différenciation

L’autre vaste question est celle du cadre dans lequel ces outils sont déployés, indique LINC dans le dernier épisode de son rapport. Les business models reposent beaucoup sur la captation, la transformation et la revente des données, ce qui pose différents risques pour les données utilisateurs (à commencer par des atteintes à la vie privée).

Si leur fonctionnement est assez proche de celui d'autres plateformes (Uber, AirBnb, etc), les services musicaux bénéficient d'un double avantage de réseau : plus elles séduisent d'utilisateurs, plus les artistes veulent les rejoindre et inversement. Dans ce contexte, selon Jeremy Morris et Devon Powers, Deezer, Apple Music et consorts se différencient surtout grâce à quatre facteurs :

  • leur interface ;
  • la qualité qu'elles proposent en termes de son, de curation et de recommandation – donc les découvertes qu'elles permettent ;
  • le « goût » – la manière dont elles enrichissent leur catalogue ;
  • et le contrôle qu'elles laissent aux usagers, sur la musique et les applications diverses.

De fait, les plateformes ont pris une telle place dans la recommandation et la consommation musicale que les grands labels s'alarment. Ils font donc jouer la concurrence, en refusant de céder l’intégralité d’un catalogue à une seule grande marque numérique… ce qui en retour fragmente l’offre pour les utilisateurs. À moins que cela ne pousse les plus mélomanes à tester toutes sortes de plateformes et d’algorithmes de recommandation.

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !