Rencontre avec les équipes sous le capot du moteur Qwant

Une brise de Nice
Internet 5 min
Rencontre avec les équipes sous le capot du moteur Qwant
Crédits : Marc Rees (Licence CC BY SA 3.0)

Après la longue interview d'Eric Léandri, nous poursuivons notre découverte des coulisses du moteur de recherche Qwant par une rencontre avec les équipes en place.

Après l'échange avec le PDG de Qwant, nous avons pu virevolter entre les différentes constellations de l’open-space niçois de Qwant. Un premier groupe s’occupe de la partie « infra IT », soit la gestion des serveurs, la production, les machines, etc. On dénombre dans le détail 40 serveurs sur la production et cette cinquantaine dédiés au crawl, tous sont installés à Aubervilliers, sur le site de Condorcet.

L’équipe en poste a pour mission « d’assurer la continuité du service pour tous les utilisateurs, faire face aux nouvelles fonctionnalités, tout en garantissant le meilleur temps de réponse ». Elle travaille en collaboration étroite avec six personnes spécialement chargées de la sécurité basées à Rouen. Pour l’avenir proche, l’enjeu sera surtout d’accompagner la montée en charge espérée du site afin d’isoler les goulots d’étranglement (Qwant réalise quelque 2000 connexions concurrentes), par exemple en ajoutant des serveurs de cache.

Non loin de là, Stéphane et Florent s’occupent spécialement de l’intégration continue (CI). « Sur Qwant, on est parti du bas pour remonter en haut. Le bas, ce sont les projets sur lesquels on travaille pour assurer leur intégration sur chaque environnement, le but étant qu’on ait les mêmes lignes de commandes, notamment en développement. »

Une application a ainsi été développée en interne « pour soutenir l’uniformisation de tous nos projets en termes d’intégration et de nos usages. Elle a été écrite en Node.JS, jugée plus accessible. On a aussi plusieurs outils de lignes de commande puisque tous nos projets sont dockérisés, afin d’uniformiser les usages ». « Nous utilisons des logiciels open source essentiellement » poursuit-on. Cette organisation permet ainsi de monter un projet très rapidement, à l’aide de briques logicielles empilées les unes aux autres.

Pierre est responsable des projets Search et Boards, et spécialement de l’interface utilisateur. « Je m’occupe de l’expérience utilisateur, toute la partie design en concordant le travail des graphistes, l’intégration des chartes pour les rendre dynamiques, c’est vraiment le bout de la chaîne ».

L’organisation n’est cependant pas aussi linéaire que cela : « nous fonctionnons aussi sous forme de squad afin de mélanger les compétences. Dans le squad dédié uniquement à Qwant, un gars va récupérer des données, un autre va les envoyer pour l’équipe Front, s’y ajoutent un graphiste, un testeur et un responsable des serveurs. L’idée est d’impliquer toutes les personnes à tous les niveaux. Pour ma part, j’ai commencé développeur, je suis aujourd’hui davantage dans la gestion des équipes, pour assigner les fonctionnalités à tel ou tel développeur. »

L’avènement de Qwant Junior

Parmi les projets, Qwant Junior, qui sera dévoilé cette semaine. « Nous avons travaillé avec des gens très exigeants, nous conduisant à améliorer notre filtre adulte, poursuit Pierre. Le problème se concentrait surtout sur les images lorsqu’on cherchait des termes en anglais. On a renforcé notre liste blanche également ». Cette liste est nourrie par les travaux de l’Université de Toulouse. « On l'a retravaillée, car il y avait des maillons faibles, des pages un peu limites. »

Pour la petite histoire, Qwant s’est inspiré des mots clefs disponibles sur les sites X (notamment étrangers) pour aiguiser ce filtrage. La liste noire est évolutive : elle peut être nourrie par les signalements des internautes, sachant que ces signalements font toujours l’objet d’une validation manuelle.

Les algorithmes de Qwant

Frédéric et Thomas font partie de l’équipe algorithme et du crawling des pages et des contenus. « Il y plusieurs algorithmes qui s’empilent les uns au-dessus des autres. Les uns qualifient et rafraichissent la donnée, d’autres gèrent la pertinence. Pour schématiser, lorsqu’on crawle le web, il y a une première phase visant à mettre en corrélation les différents documents. Avant tout, on identifie, par rapport au cheminement entre les pages, aux différents liens qui s’y trouvent et à l’importance des sites, le poids d’une page donnée dans un contexte donné. Ces poids-là peuvent être ensuite déclinés, en fonction des thématiques par rapport à l’intégralité des documents crawlés (PDF, pages web, etc.). »

D’autres critères sont également pris en compte selon la popularité du site, son autorité, ceux qui ont une visibilité mobile, ceux en HTTPS, etc. Cette méthodologie globale est appliquée par l’ensemble des moteurs, mais elle diffère selon les paramètres entrant en ligne de compte. Pour la mise au point de ces algorithmes, « on travaille avec une équipe de chercheurs, dirigés par Sylvain Peyronnet » (informaticien français, professeur à l’université de Caen).

Et pour Qwant Actu ? « La liste des sites référencés est ouverte et est mise à jour régulièrement soit parce qu’on tombe sur de nouvelles sources soit parce qu’on nous le demande, via le formulaire de contact. On a plus de 2 000 domaines différents en France, plus de 3 500 pour les sources allemandes ».

La gestion de la pertinence des sites d’actualité tient spécialement compte du nombre de mises à jour des contenus, outre le paramètre de la popularité, du ranking, de la présence ou non de « duplicates », etc. Et là encore, il y a des sources d’autorités qui peuvent être traitées automatiquement, mais d’autres exigent un traitement plus manuel.

qwant
Crédits : Marc Rees (licence: CC by SA 3.0)

Une juriste en liaison avec plusieurs cabinets d’avocats

Après avoir opté pour l’externalisation du traitement des dossiers juridiques, Qwant dispose depuis avril dernier d’une juriste dans ses locaux. Elle travaille en relation étroite avec des cabinets d’avocats niçois et parisiens, ainsi que des cabinets de conseil en propriété industrielle. « Je fais d’une certaine manière la jonction entre les différents sujets », sachant que les problématiques liées aux conditions générales d’utilisation sont plutôt gérées sur Nice, alors que celles liées aux noms de domaine sont traitées à Paris.

Questionnée sur le terrain du droit à l’oubli, cette responsable nous indique qu’« on a essayé d’être au plus proche des différentes questions et réponses apportées par la CNIL et le G29, sachant que Qwant se positionne comme un acteur très respectueux de la vie privée ». En tout, depuis l’arrêt de la CJUE du 13 mai 2014, le moteur ne croule pas sous les demandes de déréférencement (moins d’une quarantaine reçues).  

De même, pour la question du déréférencement des sites terroristes, une nouveauté issue de la loi contre le terrorisme, « on n’a pas eu de demandes des autorités, nous indique-t-on, mais dès lors qu’on a un signalement contre ce genre de site, nous les traitons très rapidement ». Le quotidien du service juridique reste cependant ancré sur la question de la protection de la donnée personnelle, un sujet décidément phare pour cet acteur.

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !