Twitter permet désormais une recherche dans tous les tweets, depuis le premier

Twitter permet désormais une recherche dans tous les tweets, depuis le premier

500 millions de nouveaux tweets par jour

Avatar de l'auteur
David Legrand

Publié dans

Internet

19/11/2014 3 minutes
9

Twitter permet désormais une recherche dans tous les tweets, depuis le premier

Twitter vient de faire l'annonce d'une nouvelle fonctionnalité au sein de son moteur de recherche qui intéressera les utilisateurs du service de micro-blogging, mais surtout tous ceux qui se penchent de près ou de loin au développement de ce genre d'outils. En effet, il est désormais possible de retrouver n'importe quel message publié depuis le premier jour de Twitter.

Via son « Engineering Blog », Twitter vient de faire l'annonce de la mise en place d'une nouvelle infrastructure afin de gérer son moteur de recherche. Son but ? Permettre à l'équipe de réaliser un rêve de longue date : l'indexation de l'ensemble des messages publiés depuis le premier jour, afin de permettre de retrouver chacun d'entre eux au sein des résultats. 

 

Et la tâche n'a rien de facile. En effet, les ingénieurs de Twitter précisent qu'ils disposent déjà d'un index « en temps réel », stocké en mémoire, qui contient à peu près une semaine de contenu, mais que l'index global est plus de 100 fois plus important, plusieurs milliards de tweets étant rajoutés chaque semaine. De quoi nécessiter une montée en capacité constante. Les chiffres les plus récents donnés par le service sont en effet de 500 millions de tweets publiés par jour en moyenne, pour 284 millions d'utilisateurs actifs par mois. 

 

L'équipe s'était d'ailleurs déjà essayée à la mise en place d'une recherche partielle dans les archives en 2012, en indexant 2 milliards de tweets parmi les plus populaires, et en permettant d'y effectuer une recherche. Après une augmentation de cet index l'année dernière, il est donc désormais question de l'ensemble des messages, du premier publié à ceux rajoutés chaque seconde, le traitement étant découpé par lots d'une journée de tweets.

 

Twitter Search

 

L'équipe détaille son infrastructure et le processus de traitement complet par ici pour les plus curieux. Dans la pratique, lors d'une recherche au sein des applications Android, iOS ou sur le web, il faudra toujours passer par le lien « Tout » en tête des résultats de recherche pour avoir une chance de les voir apparaître.

 

Notez que vous pouvez aussi indiquer des filtres par date au sein de la recherche avancée. Il est ainsi assez facile de retrouver les premiers messages à la mise en place de nos abonnements Premium en 2009 par exemple, les résultats apparaissant de manière quasiment instantanée. Du beau boulot, donc.

Écrit par David Legrand

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Commentaires (9)


Par curiosité, c’est quoi le tout premier tweet jamais posté ?



J’imagine que Twitter doit compter des centaines de milliards de tweets à l’heure actuelle, c’est hallucinant :eek:


C’est quand j’ai vu la hype autour du site (dont j’ai perdu l’URL) qui permettait d’afficher son premier tweet que je me suis dit que c’était le gros boxon pour retrouver un vieux tweet quand même, bonne nouvelle <img data-src=" />


Je n’ose même pas imaginer la taille de ces nouveaux index. Quand je vois comment je dois me décarcasser pour que ma boite accepte de me donner 1Go pour une base de donnée alors que dans ce cas, les chiffres doivent être hallucinant.


Il s’agit de celui-ci je crois, envoyé par le créateur du service



https://twitter.com/jack/status/20


Nadine Morano n’a qu’à bien se tenir !








aldebourg a écrit :



Nadine Morano n’a qu’à bien se tenir !







Elle en a effacé pas mal



bonne nouvelle pour les chercheurs car l’accès aux tweets via l’API ne proposais jusqu’ici que l’accès à un échantillons des données sur l’index en temps réel (API search une semaine en gros) ou la récupération d’un échantillons du flux en continu (API stream).

j’espère que les capacités de l’API search vont suivre et qu’il sera possible de récupérer tout ou parti de ces tweets via cette dernière.


Je pense que cet énorme boulot sera monétisé assez rapidement. Déjà qu’il me semble que le nombre d’appels est limités pour les applications tierces.



Si Twitter veut trouver son modèle, il sera forcément différent de FB, qui est actuellement trop en avance sur le ciblage publicitaire et les données personnelles.



A contrario, Twitter dispose d’une base de données monstrueuse, et particulièrement bien formatée (user, date, heure, 140 caractères, liens entre les messages etc…). C’est là la valeur plus que les données personnelles à mon avis.