Twitter ouvre une partie de son code source

just tweet for two and two for tweet
Tech 6 min
Twitter ouvre une partie de son code source
Crédits : DKart/iStock

Le 31 mars, comme annoncé plus tôt par Elon Musk, Twitter a rendu public une partie de son code source. Celui-ci donne un aperçu de la manière dont des tweets peuvent se retrouver dans la page « For You » des usagers et de ce qui leur fait perdre en « découvrabilité ».

Le 31 mars, dans une publication titrée « une nouvelle ère de transparence pour Twitter », la plateforme annonçait la publication de deux dépôts de son code source sur GitHub (main repo, ml repo). Dedans, une partie du code qui fait tourner l’algorithme de recommandation derrière la page « For You ».

Une autre publication, dans la partie « ingénierie » du blog de l’entreprise, apporte des précisions supplémentaires sur cet algorithme. L’article rappelle que l’algorithme « For You » n’est qu’un outil de recommandation parmi une série d’autres, interconnectés et accessibles via l’onglet de recherche, la page « Explore », ou simplement pour sélectionner les publicités présentées à l’internaute. 

Home Mixer, le système qui gère les recommandations de la page « For You »

Le but de la page « For You » est de sélectionner les tweets les plus pertinents selon Twitter pour chaque utilisateur. Le choix s’opère sur les 500 millions de tweets publiés chaque jour sur la plateforme. Le système en charge de créer et de publier les tweets que vous voyez apparaître dans votre page « For you » s’appelle le Home Mixer. 

Pour résumer, il opère sa sélection en trois étapes. Il commence par réaliser une recherche de « candidats » (candidate sourcing), pour trouver les 1 500 meilleurs tweets parmi les personnes que vous suivez (« in network », à 50 %) et parmi d’autres, auxquelles vous n’êtes pas abonné(e) (« out of network », à 50 %). 

Pour la première moitié, le modèle Real Graph calcule la probabilité que vous soyez « engagé(e) » par le tweet d’une autre personne, c’est-à-dire que vous le likiez, le retweetiez et/ou le commentiez. 

Pour la seconde, l’enjeu est différent puisqu’il s’agit de deviner quels tweets peuvent vous intéresser alors que vous ne suivez pas leurs auteurs. Twitter utilise pour cela des graphes sociaux (comme le fait Facebook, par exemple) intégrant des informations sur les tweets avec lesquels les personnes que vous suivez ont interagi et les actions de profils Twitter similaires au vôtre. L’entreprise utilise aussi SimClusters, une technologie qui permet de repérer et constituer des communautés d’auteurs et de tweets proches des intérêts de l’usager. 

Ensuite, le home mixer classe les quelque 1 500 tweets de sa sélection grâce à un modèle d’apprentissage machine intégrant environ 48 millions de paramètres. Enfin, la machine applique divers filtres sur le tri obtenu, pour enlever les publications d’utilisateurs que vous avez bloqués, le contenu pornographique, les tweets déjà vus, s’assurer que vous ne receviez pas que la production d’un seul auteur, etc. 

 

Twitter code source recommandationCrédits : Twitter

Ratio following/followers et importance de Twitter Blue

Le 1er avril, les fils analysant le code de Twitter se sont succédé, avec plus ou moins de précision

Ce qui est certain, c’est que le « Tweepcred », un algorithme dérivé du PageRank de Google, donne une réelle importance au ratio entre le nombre de personnes suivies (following) et le nombre d’abonnés (followers) d’un compte. « Cette méthode réduit le classement des utilisateurs qui ont un faible nombre de followers, mais un nombre élevé de followings », indique la documentation.

Par ailleurs, si vous êtes abonné(e) à Twitter Blue, vous serez quatre fois plus visible dans le fil d’une personne de votre cluster et deux fois plus visible ailleurs : payer a un impact réel sur la visibilité de vos publications. Parmi les autres actions qui peuvent faire apparaître vos tweets dans la page « For you » d’un usager, l’entrepreneur et développeur Steven Tey relève les likes, les RT, le clic plus réponse (qui pèse encore plus lourd si la personne reste plus de deux minutes sur votre tweet), le clic sur le profil plus réponse ou like d’un tweet, la discussion (une réponse puis une réponse à la réponse), etc.

Le fait d’être muté, bloqué ou qu’un utilisateur ait demandé à « voir moins souvent » vos productions fera baisser le score de votre profil dans le Home Mixer. Autres éléments qui font chuter les scores de visibilité : le spam – le spam crypto a même droit à sa catégorie spécifique. Le fait d’être signalé a l’impact le plus fort de tous les éléments listés, en négatif.

Plusieurs internautes, parmi lesquels la chercheuse Jane Manchun Wong, ont aussi noté qu’il existait quatre sous-groupes spécifiques pour lesquels tester le nombre d’impressions de chaque tweet : « author_is_elon », si c’est Elon Musk qui l’a écrit, les « power users », les démocrates et les républicains. Auprès de Reuters, un employé de Twitter a déclaré que le classement républicain/démocrate était une ancienne fonctionnalité non utilisée dans le système de recommandation, et que l’entreprise prévoyait de l’enlever. 

Jane Manchun Wong a aussi fait remarquer que les comptes de Jack Dorsey, Katy Perry, Stephen Curry et Barack Obama avaient pu être utilisés comme « comptes tests » auxquels envoyer des tweets au hasard, une précision qui a rapidement été effacée. 

Plus de transparence et du travail collectif

Dans son article annonçant la publication de ces éléments, Twitter indique qu’il s’agit de la « première étape » vers plus de transparence. L’entreprise prévoit de « continuer à partager du code qui ne présente pas de danger significatif pour Twitter ou pour les personnes présentes sur la plateforme », une promesse réitérée par Elon Musk sur la plateforme.

Les utilisateurs de GitHub sont invités à soumettre des issues et des pull requests, l’équipe de Twitter déclarant travailler à un outil de tri des suggestions et de synchronisation dans leur dépôt interne. 

L’évolution peut être vue de manière positive – l’ouverture du code source est une pratique reconnue dans l’industrie pour auditer, corriger et faire évoluer un logiciel ainsi que pour faciliter l’interopérabilité et la réutilisation de certains éléments du logiciel. Elon Musk avait justement déclaré qu’il œuvrerait en faveur de la transparence pour améliorer la confiance des utilisateurs envers la plateforme et pour accélérer les améliorations de la plateforme.

Elle peut aussi être analysée comme un moyen de crowdsourcer une partie du travail sur l’infrastructure de Twitter. En effet, l’entreprise a licencié près des trois quarts de ses 7 500 employés depuis l’arrivée d’Elon Musk à sa tête, début novembre. Début mars, selon le média Platformer, elle ne comptait plus que 550 ingénieurs à plein temps. 

La publication du code avait été annoncée le 17 mars par Elon Musk. Elle fait aussi suite à une fuite partielle du code source de l’entreprise, dont Twitter avait demandé le retrait à GitHub le 24 mars. Selon le New-York Times, certains éléments de cette fuite étaient disponibles en ligne depuis plusieurs mois.  

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !