Rencontre avec les équipes sous le capot du moteur Qwant

Rencontre avec les équipes sous le capot du moteur Qwant

Une brise de Nice

Avatar de l'auteur
Marc Rees

Publié dans

Internet

03/12/2015 7 minutes
34

Rencontre avec les équipes sous le capot du moteur Qwant

Après la longue interview d'Eric Léandri, nous poursuivons notre découverte des coulisses du moteur de recherche Qwant par une rencontre avec les équipes en place.

Après l'échange avec le PDG de Qwant, nous avons pu virevolter entre les différentes constellations de l’open-space niçois de Qwant. Un premier groupe s’occupe de la partie « infra IT », soit la gestion des serveurs, la production, les machines, etc. On dénombre dans le détail 40 serveurs sur la production et cette cinquantaine dédiés au crawl, tous sont installés à Aubervilliers, sur le site de Condorcet.

L’équipe en poste a pour mission « d’assurer la continuité du service pour tous les utilisateurs, faire face aux nouvelles fonctionnalités, tout en garantissant le meilleur temps de réponse ». Elle travaille en collaboration étroite avec six personnes spécialement chargées de la sécurité basées à Rouen. Pour l’avenir proche, l’enjeu sera surtout d’accompagner la montée en charge espérée du site afin d’isoler les goulots d’étranglement (Qwant réalise quelque 2000 connexions concurrentes), par exemple en ajoutant des serveurs de cache.

Non loin de là, Stéphane et Florent s’occupent spécialement de l’intégration continue (CI). « Sur Qwant, on est parti du bas pour remonter en haut. Le bas, ce sont les projets sur lesquels on travaille pour assurer leur intégration sur chaque environnement, le but étant qu’on ait les mêmes lignes de commandes, notamment en développement. »

Une application a ainsi été développée en interne « pour soutenir l’uniformisation de tous nos projets en termes d’intégration et de nos usages. Elle a été écrite en Node.JS, jugée plus accessible. On a aussi plusieurs outils de lignes de commande puisque tous nos projets sont dockérisés, afin d’uniformiser les usages ». « Nous utilisons des logiciels open source essentiellement » poursuit-on. Cette organisation permet ainsi de monter un projet très rapidement, à l’aide de briques logicielles empilées les unes aux autres.

Pierre est responsable des projets Search et Boards, et spécialement de l’interface utilisateur. « Je m’occupe de l’expérience utilisateur, toute la partie design en concordant le travail des graphistes, l’intégration des chartes pour les rendre dynamiques, c’est vraiment le bout de la chaîne ».

L’organisation n’est cependant pas aussi linéaire que cela : « nous fonctionnons aussi sous forme de squad afin de mélanger les compétences. Dans le squad dédié uniquement à Qwant, un gars va récupérer des données, un autre va les envoyer pour l’équipe Front, s’y ajoutent un graphiste, un testeur et un responsable des serveurs. L’idée est d’impliquer toutes les personnes à tous les niveaux. Pour ma part, j’ai commencé développeur, je suis aujourd’hui davantage dans la gestion des équipes, pour assigner les fonctionnalités à tel ou tel développeur. »

L’avènement de Qwant Junior

Parmi les projets, Qwant Junior, qui sera dévoilé cette semaine. « Nous avons travaillé avec des gens très exigeants, nous conduisant à améliorer notre filtre adulte, poursuit Pierre. Le problème se concentrait surtout sur les images lorsqu’on cherchait des termes en anglais. On a renforcé notre liste blanche également ». Cette liste est nourrie par les travaux de l’Université de Toulouse. « On l'a retravaillée, car il y avait des maillons faibles, des pages un peu limites. »

Pour la petite histoire, Qwant s’est inspiré des mots clefs disponibles sur les sites X (notamment étrangers) pour aiguiser ce filtrage. La liste noire est évolutive : elle peut être nourrie par les signalements des internautes, sachant que ces signalements font toujours l’objet d’une validation manuelle.

Les algorithmes de Qwant

Frédéric et Thomas font partie de l’équipe algorithme et du crawling des pages et des contenus. « Il y plusieurs algorithmes qui s’empilent les uns au-dessus des autres. Les uns qualifient et rafraichissent la donnée, d’autres gèrent la pertinence. Pour schématiser, lorsqu’on crawle le web, il y a une première phase visant à mettre en corrélation les différents documents. Avant tout, on identifie, par rapport au cheminement entre les pages, aux différents liens qui s’y trouvent et à l’importance des sites, le poids d’une page donnée dans un contexte donné. Ces poids-là peuvent être ensuite déclinés, en fonction des thématiques par rapport à l’intégralité des documents crawlés (PDF, pages web, etc.). »

D’autres critères sont également pris en compte selon la popularité du site, son autorité, ceux qui ont une visibilité mobile, ceux en HTTPS, etc. Cette méthodologie globale est appliquée par l’ensemble des moteurs, mais elle diffère selon les paramètres entrant en ligne de compte. Pour la mise au point de ces algorithmes, « on travaille avec une équipe de chercheurs, dirigés par Sylvain Peyronnet » (informaticien français, professeur à l’université de Caen).

Et pour Qwant Actu ? « La liste des sites référencés est ouverte et est mise à jour régulièrement soit parce qu’on tombe sur de nouvelles sources soit parce qu’on nous le demande, via le formulaire de contact. On a plus de 2 000 domaines différents en France, plus de 3 500 pour les sources allemandes ».

La gestion de la pertinence des sites d’actualité tient spécialement compte du nombre de mises à jour des contenus, outre le paramètre de la popularité, du ranking, de la présence ou non de « duplicates », etc. Et là encore, il y a des sources d’autorités qui peuvent être traitées automatiquement, mais d’autres exigent un traitement plus manuel.

qwant
Crédits : Marc Rees (licence: CC by SA 3.0)

Une juriste en liaison avec plusieurs cabinets d’avocats

Après avoir opté pour l’externalisation du traitement des dossiers juridiques, Qwant dispose depuis avril dernier d’une juriste dans ses locaux. Elle travaille en relation étroite avec des cabinets d’avocats niçois et parisiens, ainsi que des cabinets de conseil en propriété industrielle. « Je fais d’une certaine manière la jonction entre les différents sujets », sachant que les problématiques liées aux conditions générales d’utilisation sont plutôt gérées sur Nice, alors que celles liées aux noms de domaine sont traitées à Paris.

Questionnée sur le terrain du droit à l’oubli, cette responsable nous indique qu’« on a essayé d’être au plus proche des différentes questions et réponses apportées par la CNIL et le G29, sachant que Qwant se positionne comme un acteur très respectueux de la vie privée ». En tout, depuis l’arrêt de la CJUE du 13 mai 2014, le moteur ne croule pas sous les demandes de déréférencement (moins d’une quarantaine reçues).  

De même, pour la question du déréférencement des sites terroristes, une nouveauté issue de la loi contre le terrorisme, « on n’a pas eu de demandes des autorités, nous indique-t-on, mais dès lors qu’on a un signalement contre ce genre de site, nous les traitons très rapidement ». Le quotidien du service juridique reste cependant ancré sur la question de la protection de la donnée personnelle, un sujet décidément phare pour cet acteur.

Écrit par Marc Rees

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

L’avènement de Qwant Junior

Les algorithmes de Qwant

Une juriste en liaison avec plusieurs cabinets d’avocats

Fermer

Commentaires (34)


Je l’utilise en remplacement du ponte number one. Les réponses sont très pertinantes.



Il manque cependant des filtres de tri dans les recherches comme par date, dimension des images etc, et ce serait parfait.      






En plus, ils sont basés en partie sur ma terre natale, un peu de chauvinisme m'envahit pour le coup <img data-src=">







DuncanV a écrit :



Je l’utilise en remplacement du ponte number one. Les réponses sont très pertinantes.



Il manque cependant des filtres de tri dans les recherches comme par date, dimension des images etc, et ce serait parfait.







Pareil <img data-src=" />



C’est devenu mon moteur par défaut, et il ne manque plus que les options de filtres pour qu’il soit complet.



J’aime bien la skin sombre de DuckDuckGo, mais Qwant est vraiment rapide. J’attends donc la skin sombre chez Qwant :)


Ca doit pouvoir se bricoler… me souvient qu’a un moment il était à la mode de changer son style d’affichage de fb ^^

Perso j’aimerais bien passer la majorité des sites en sombres (pour les yeux c’est mieux) [[au passage, j’adore le skin sombre NXI]]



Je vais essayer qwant, la lecture des deux articles m’a convaincu d’essayer. (j’aimerais bien être moins googlisé) [HS] QQun sait s’il y a projet similaire (européen si pas français, pro-libriste dans l’âme, respectueux de la vie privée…) pour les boîtes mails? [/HS]


Bonne question pour les boites mails. Je pense que le mieux est de se monter son propre serveur malheureusement :/.


pourtant en ergonomie on t’apprend qu’une texte sombre sur un fond clair est plus reposant pour les yeux que l’inverse


Tout dépends de tes conditions d’environnement



Si tu es dans une pièce sombre, un fond en gris 60% est bien moins agressif qu’un blanc


Mmm, si je me rappelle bien, il y avait un autre argument: pour ceux qui font la navette avec leurs yeux entre des docs papier et un écran, le doc papier étant en sombre sur clair, si l’écran fait l’inverse, les yeux doivent s’adapter tout le temps et fatiguent vite. Dans l’absolu, je ne sais pas trop ce qui est le mieux…


Il existe un excellent lecteur de mail indépendant des américains. Il s’agit de Foxmail qui est développé par une entreprise chinoise “tencent”. Par contre elle est en chinois ou anglais par défaut.

http://www.foxmail.com/win/



Mais une version francisée par des passionnés existe ici:

http://foxmail.free.fr/



Le forum Francophone de discussion est en cour de réaménagement mais le zip d’une version récente en Français reste accessible pour utilisation.


J’ai testé, je retiens pour mon usage perso.









Gilbert_Gosseyn a écrit :



Bonne question pour les boites mails. Je pense que le mieux est de se monter son propre serveur malheureusement :/.







Seule solution si on ne veut pas se taper un serveur mail chez soi, et encore boiteuse : passer par un presta comme1and1 et payer sa boîte mail soi-même (15€/an pour moi). Je fais ça pour ma boîte privée.



Une solution sans s’embêter à gérer le mail, est s’offire un NDD, et de faire héberger le mail par le registrar. Gandi le fait (mais je ne sais pas si le mail est proprement géré).


suffit de baisser l’intensité/luminosité du moniteur peut-être : faut pas que ton blanc fasse phare dans la nuit :)

Mais un fond clair pour texte sombre est mieux. Après je suis d’accord faut pas s’amuser à mettre son écran avec une luminosité de malade sinon tu t’exploses les yeux et le cerveau


1and1 : quel boite de m…<img data-src=" /> c’est le MAL


Pour ma part, j’ai depuis quelques semaines des résultats moins pertinents que Google :/ Ca correspond à 10% de mes recherches environ. C’est pas dramatique, mais ça fait mal aux fesses de changer de moteur pour avoir le résultat que je veux.



En dehors de ça, je suis très satisfait de Qwant :) J’espère pour eux qu’ils iront loin.


En gros rien de mieux que de le faire soit même… le DIY des services web quoi&nbsp;<img data-src=" />



J’ai un peu peur de faire ça, je n’ai jamais paramétré de serveur mail, je ne sais pas trop comment ça marche derrière, et je redoute la programmation lourde niveau spam… et il y a l’aspect risque (plantage/vol/incendie du NAS -&gt; perte définitive de tes données, de tes mails,…), de ta vie quoi ^^





&nbsp;

Bref, je suis un kevin de l’auto-hébergement








cyberscooty a écrit :



1and1 : quel boite de m…<img data-src=" /> c’est le MAL







Ah bon ?



Qu’est-ce que tu leur reproche ? Je ne les utilise que pour mes courriels perso, je ne vois pas tout.



Pour le mail, je connais Riseup. C’est pas français, ni européen, mais américain, ça va peut-être pas te plaire. Mais lis un peu ça quand même avant de fuire :)

Ils sont associatif, il n’y a pas de pub, pas de lecture de tes mails et ils sont vachement encagés. Ils gagnent de l’ argent avec les dons, tu es libre de donner ce que tu veux , ils te disent un prix indicatif à l’année (60€ je crois) qui permet aussi de payer une part pour tous ceux qui peuvent pas (plus pauvres que toi, habitants de pays pauvres où la monnaie n’a pas du tout la même valeur).

Pour pouvoir avoir un compte il faut montrer patte blanche, il y a 2 possibilités :





  • avoir 2 invitations de personnes différentes

  • détailler ton activisme ou ce qui te motive à utiliser ce service, ils regardent ça attentivement, je me suis fait rejeter mon 1er essai que j’avais écrit à la va-vite





    Pour te montrer un peu le niveau un post de leur blogexplique que des activistes espagnols se sont fait coffrés parce qu’ils utilisaient Riseup, qui était trop sécurisé au goût des autorités :



    Four of the detainees have been released, but seven have been jailed pending trial. The reasons given by the judge for their continued detention include the posession of certain books, “the production of publications and forms of communication”, and the fact that the defendants “used emails with extreme security measures, such as the RISE UP server”








NonMais a écrit :



suffit de baisser l’intensité/luminosité du moniteur peut-être : faut pas que ton blanc fasse phare dans la nuit :)

Mais un fond clair pour texte sombre est mieux. Après je suis d’accord faut pas s’amuser à mettre son écran avec une luminosité de malade sinon tu t’exploses les yeux et le cerveau







Vu que les contrastes sont aussi importants (parce que du texte jaune clair sur fond blanc ca fait mal aussi <img data-src=" />) il faut utiliser une bonne palette de couleur comme par exemple Solarized (avec un mode clair et un mode sombre)

Solarized



Ne t’inquiète pas, je n’ai pas dit “français, sinon européen” par anti-americanisme, mais plus par un petit côté protectionnisme ^^. Après, si ça n’existe pas, c’est normal qu’il faille se fournir ailleurs :)

(même si je cache pas que ce qui m’embête aussi est le stockage aux US, NSA et tout ça…)



Merci du tuyau en tout cas, j’irais me renseigner :)


+1

je l’utilise depuis un an environ et globalement, j’en suis content, même si sur certaines requêtes, je suis obligé de repasser par Google pour vérifier que le sujet n’existe pas ou bien que Qwant ne le trouve pas.

on en est à 12 pour l’instant (un chance sur deux que google trouve alors que Qwant, non)


Dans le cadre de ma dégooglisation, mes mails sont chez Online (Iliad), qui a l’avantage de proposer du filtrage des mails côté serveur.


J’ai appris et j’observe le contraire, étonnant.



Le fond sombre consomme moins d’énergie, est moins lumineux, et un texte sur fond sombre se voit mieux parce que la couleur la plus claire dégueule sur la plus sombre (donc si l’écriture est claire elle apparaît plus grosse, plus lisible, et inversement, sur une diapositive par exemple c’est choquant la différence).



Par contre c’est peut-être vrai pour le print, même si je sais aussi que le noir pur sur du blanc pur fatigue plus qu’un contraste légèrement plus faible (pas n’importe quoi non plus, attention, je parle ici d’une couleur “papyrus”, par exemple, qui est très agréable)


[mode râleur on]Il n’y a que moi pour plaindre ce pôv’ garçon (râââ les photos de Marc…) d’avoir été obligé de récupérer des emballages pour avoir ses écrans à bonne hauteur? Il n’ont pas les moyens de s’offrir du matériel réglable?[/mode râleur off]


Superbe série d’articles !!&nbsp;



et c’est très cool a eux de vous avoir reçus



<img data-src=" />


Pour le débat sur la couleur de fond, c’est aussi une question de calibrage d’écran.


Est-ce que vous savez où sont physiquement les données? Est-ce du cloud américain (Amazon, Azure, Google,…), du français (OVH, Online,Gandi…), ou ils gèrent leurs serveurs directement?



Content de voir le succès de Docker sinon, c’est en train de tuer les coûteuses VMs et le SaaS où le client ne maîtrise rien en temps record.








GvLustig a écrit :



Ca doit pouvoir se bricoler… me souvient qu’a un moment il était à la mode de changer son style d’affichage de fb ^^

Perso j’aimerais bien passer la majorité des sites en sombres (pour les yeux c’est mieux) [[au passage, j’adore le skin sombre NXI]]



Je vais essayer qwant, la lecture des deux articles m’a convaincu d’essayer. (j’aimerais bien être moins googlisé) [HS] QQun sait s’il y a projet similaire (européen si pas français, pro-libriste dans l’âme, respectueux de la vie privée…) pour les boîtes mails? [/HS]





ProtonMail.ch ?



Ca ressemble exactement à ce que je cherchais ! Va falloir que je me penche sur les lois concernant la vie privée en Suisse, mais ça me semble super :)

(en plus c’est le webmail d’Eliott Alderson visiblement&nbsp;<img data-src=" />

&nbsp;

Mon projet de dégooglisation reprends un peu vie là <img data-src=" />)








Eric_V a écrit :



[mode râleur on]Il n’y a que moi pour plaindre ce pôv’ garçon (râââ les photos de Marc…) d’avoir été obligé de récupérer des emballages pour avoir ses écrans à bonne hauteur? Il n’ont pas les moyens de s’offrir du matériel réglable?[/mode râleur off]





non <img data-src=" /> faut pas surelever ses écrans, c’est une mauvaise habitude.



Pour les courriels je sais pas mais j’ai eu de mauvaises expériences coté hébergement et nom de domaine (prix, complexité inutile, changement de tarif arbitraire, etc.) . J’avais le choix entre une augmentation de 250% - oui monsieur votre pack n’existe plus et un nouveau pack vachement mieux le remplace, sauf qu’il est plus cher- ou de résilier &gt; je suis allé chez OVH

+ d’info








cyberscooty a écrit :



Pour les courriels je sais pas mais j’ai eu de mauvaises expériences coté hébergement et nom de domaine (prix, complexité inutile, changement de tarif arbitraire, etc.) . J’avais le choix entre une augmentation de 250% - oui monsieur votre pack n’existe plus et un nouveau pack vachement mieux le remplace, sauf qu’il est plus cher- ou de résilier &gt; je suis allé chez OVH

+ d’info







En ce qui concerne les courriels, je les ai pris parce que ce sont les seuls à proposer un système de whitelist sur tes boîtes. Cela fait trois ans que je suis chez eux, et je suis content de leurs services sur ce produit précis.



Après, franchement, vu la gueule de leurs offres, je préfère aller chez OVH, où j’ai deux lignes SIP et un Hubic 10 To à un tarif correct. Je trouve que 1and1 est cher par rapport à la concurrence, sans plus-value perceptible pour moi.









GvLustig a écrit :



Ca ressemble exactement à ce que je cherchais ! Va falloir que je me penche sur les lois concernant la vie privée en Suisse, mais ça me semble super :)

(en plus c’est le webmail d’Eliott Alderson visiblement&nbsp;<img data-src=" />

&nbsp;

Mon projet de dégooglisation reprends un peu vie là <img data-src=" />)





Elles sont meilleures qu’en France ;-)

Ils ont été dernièrement victime d’une attaque DDOS d’une ampleur incroyable: ça a fait tomber leur ISP ainsi que d’autres en Suisse!



Tout est expliqué sur leur blog:

https://protonmail.com/blog/protonmail-ddos-attacks/



En tout cas, c’est bien la preuve qu’ils dérangent :-)&nbsp;



Par contre le très très gros manque de qwant, c’est la correction orthographique.



Ça parait con, mais quand je fais ma faute de frappe, avoir la proposition en un clic c’est top. Alors que la, il faut que je percute que j’ai fait la correction de frappe, que j’aille corriger et que j’envoie la nouvelle recherche.








GvLustig a écrit :



[HS] QQun sait s’il y a projet similaire (européen si pas français, pro-libriste dans l’âme, respectueux de la vie privée…) pour les boîtes mails? [/HS]





Perso, j’utilise Netcourrier qui se positionne sur le même segment que Qwant. Un webmail très complet mais stockage limité sur la version gratuite (1Go). J’ai pris un pack family (20Go pour 24€/an) pour ma femme et moi histoire d’être tranquille et de pouvoir importer ma boite Gmail et limité au max les services Google