Dropbox a publié hier soir un long billet technique expliquant les défis de la recherche et les fondations de sa nouvelle architecture pour le faire : Nautilus.

L’éditeur pointe les difficultés inhérentes à la recherche avec plus de 500 millions d’utilisateurs, des centaines de milliards de contenus, des documents souvent modifiés, plusieurs versions pour un même fichier, etc.

Nautilus devait donc être rapide, flexible, vigilant sur la sécurité des données et fournir une base pour l’ajout plus tard de traitements « intelligents ». La nouvelle architecture sépare ainsi l’indexation et le service de recherche.

D’un côté, l’indexation analyse les fichiers et l’activité utilisateur, extrait les contenus et les métadonnées, puis crée un index. Le service de recherche s’appuie sur cet index pour répondre aux requêtes de l’utilisateur. Dropbox évoque des dizaines de milliers de processus répartis dans plusieurs centres de données.

L’un des défis à relever pour le nouvel index était de suivre les modifications en direct. Impossible de lancer un scanner des changements à intervalles réguliers puisque l’utilisateur peut avoir à chercher dans ses récents ajouts à tout moment.

Dropbox a donc choisi une approche hybride, avec d’un côté des sauvegardes hors ligne tous les quelques jours, complétées parce que l’entreprise nomme des « index mutations ». Elles sont issues des manipulations des utilisateurs sur leurs fichiers, que le machine learning tente dans une certaine mesure de prévoir.

Nautilus est désormais actif pour l’ensemble des utilisateurs. Ceux qui souhaitent en savoir plus sur la nouvelle architecture pourront lire les explications de Dropbox sur le sujet.