Qwant : des résultats (encore) datés, des erreurs (404) et des complots

Qwant : des résultats (encore) datés, des erreurs (404) et des complots

Qwant ça veut toujours pas

Avatar de l'auteur
Jean-Marc Manach

Publié dans

Internet

01/04/2020 34 minutes
66

Qwant : des résultats (encore) datés, des erreurs (404) et des complots

Selon nos constatations, les résultats proposés par Qwant, qui va devenir le moteur de recherche « par défaut » de la fonction publique, datent majoritairement de l'été ou de fin 2019, mais pas de 2020. Ils renvoient pour certains à des erreurs. Pour ce qui est de Covid-19, on y trouve dans certains cas des... vidéos complotistes.

En août 2019, lorsque nous avions fact-checké les résultats datant de 2017 proposés par Qwant, le moteur de recherche avait reconnu un « problème de cache », et « une erreur d’adressage qui a en quelque sorte « rebranché » un index de 2017 mis en sommeil », tout en précisant : « on a des résultats frais, nos crawlers fonctionnent, notre index aussi ».

Début janvier, Acteurs publics révélait que la direction interministérielle du numérique (Dinum) avait acté son installation comme moteur de recherche par défaut sur tous les ordinateurs et mobiles des agents publics, au nom de la protection de leurs données personnelles et professionnelles.

Mais également que le rapport d’audit technique que Cédric O, secrétaire d'État au numérique, lui avait demandé d'effectuer, indiquait « une forte dépendance à Microsoft, dont l’Etat aimerait se passer ». Un premier audit, effectué fin juillet, n'avait en effet « pas permis d’éclairer complètement la question du taux de recours effectif à Bing en production au jour de l’audit et n’a pas permis d’exclure un scénario dans lequel la quasi-totalité des requêtes viennent in fine de Bing ».

Un deuxième leur permit de découvrir que « 36 % des requêtes réalisées par les utilisateurs du moteur reposaient, le jour du second audit (25 septembre 2019), sur l’index de Qwant et non sur celui de Microsoft », donc que 64 % des résultats fournis par Qwant provenaient en fait de Bing.

Pour vérifier que la situation s’améliore, précisait Acteurs Publics, « l’Etat a mis un point d’honneur à ce que Qwant établisse un “indicateur d’autonomie” qui soit suffisamment “signifiant” pour mesurer son taux de progression et donc d’émancipation de la coupe de Microsoft ». Il sera calculé quotidiennement et communiqué toutes les semaines à la Dinum. Le rapport indique que « le taux de requêtes reposant sur l’index Qwant devait grimper à 50 % d’ici la fin de l’année 2019 ».

Des résultats datant de... l'été 2019, et pas mis à jour depuis

L'été dernier, un développeur de Qwant avait par ailleurs expliqué au Virus informatique que « pour le moment, les 4 000 requêtes les plus fréquentes, représentant 40 % des recherches textuelles, sont traitées avec l’outil de Qwant, les autres étant encore sous-traitées à Bing de Microsoft ».

À défaut d'avoir obtenu confirmation sur ce point de la part de Qwant, nous avons donc effectué des requêtes sur des mots-clefs a priori très usités, avant de comparer leurs pages de résultats (SERP, pour Search Engine Results Page) avec celles de Bing, pour vérifier ceux qui relevaient bien de l'index de Qwant.

Les tests et captures d'écran qui suivent ont été réalisés à deux périodes : début octobre, puis fin février-début mars pour en constater l'évolution. D'ailleurs, il est possible que certains résultats aient pu évoluer ou qu'ils soient modifiés, entre la publication de notre enquête et le moment où vous la lirez, a fortiori si Qwant les rectifie. Cela peut aussi être le cas lorsqu'une surcharge survient : Qwant n'affiche alors que 10 des 50 résultats qu'il propose normalement.

Si notre enquête n'a pas permis de vérifier ladite évolution, elle révèle que les résultats pour des centaines de requêtes étudiées ne sont pas plus récents qu'en octobre ou novembre 2019. Ils renvoient essentiellement à des pages datant de l'été ou de fin 2019 (mais rien depuis que la Dinum a réalisé son audit), et aucun ne date de 2020. 

De nombreuses requêtes renvoient par ailleurs à des pages ou sites web qui n'existent plus... alors que d'autres ont été modifiées – sinon « caviardées » – par des interventions spécifiques, afin de manipuler les résultats proposés et de ne plus faire apparaître certaines pages et sites web (à caractère pornographique, mais pas seulement).

Une situation à laquelle la nouvelle direction, désignée en janvier dernier, devra faire face. Elle est d'ailleurs en train de mettre son équipe en place, Hugo Venturini ayant été nommé nouveau CTO. Interrogée, elle a néanmoins refusé de répondre à nos questions (pour le moment), reproduites en fin d'article.

Mais si ces résultats toujours datés ne sauraient augurer de ce qu'elle va mettre en place, ils interrogent sur le choix fait par la Dinum de faire de Qwant le moteur de recherche par défaut des terminaux, fixes et mobiles, des agents de la fonction publique en l'état actuel du service.

Nos précédentes enquêtes sur Qwant :

Ce soir à la télé... en 2019

Commençons par une recherche simple, courante : « ce soir à la télé ». Ici, nous n'avons trouvé aucun résultat mentionnant 2020, mais 15 faisant référence à 2019, plus quelques autres datant de l'été dernier : les deux premiers. La page « Ce soir à la télé » du Figaro, mentionne le 12 juillet 2019, et programme-tv.net le 29 juin :

qwant ce soir tv
Une capture des premiers résultats de la page puis d'autres visibles un peu plus loin. On constate toujours des références à l'été 2019

La page « Ce soir à la télé » d'Orange.fr date du 11 juillet, « Le programme télé de ce soir » de webmaster-gratuit.com du 25 juillet, le programme TV de Madeinfoot.com du 28 juin, le « guide Télé Z aujourd'hui » du 31 juillet, les programmes TV « ce soir » sur France 2 et TMC de Programme-tv.com des 1er août et 11 juillet, ceux du Point du 01 juillet...

La description des Bronzés, au « Programme TV ce soir » de ouest-france.fr, « Vacances mouvementées dans un club de vacances pour quelques Français, très moyens », correspond par ailleurs à celle que RTL-TVI avait proposé lors de sa diffusion en juin et juillet 2019.

Une requête sur le mot-clef « replay » renvoie le même genre de résultats. Notamment à la page d'accueil du replay de Cnews.fr, dont le résumé mentionne « La chronique éco du 28/06/2019 », celui de Plus belle la vie l'« Épisode du vendredi 26 juillet 2019 », et celui de Numéro 23 l'« Episode du 12 juillet ». 

De quoi laisser penser que les crawlers de Qwant ne sont pas passés sur ces pages depuis un moment, pourtant d'usage quotidien chez de nombreux Français. Et si c'est le cas, ces résultats ne semblent pas encore exploités dans la SERP

Qwant télé

Le résumé de la page d'accueil de l'association Replay évoque de son côté leur « passage dans l’émission d’Antoine de Caunes du 12 décembre 2018 », alors que le site a fait l'objet de 12 mises à jour depuis lors. Qwant ne l'a donc pas indexée ou référencée depuis. 

Si l'on se tourne vers « programme tv », on trouve une fois encore des mentions du même acabit : « A voir ce soir mardi 24 septembre » sur telestar.fr, « Votre programme TV en ce moment, aujourd'hui le 11 septembre 2019 » sur telez.fr, « Programme TV FRANCE 2 en ce moment | 24 octobre 2019 » pour sa page consacrée à France 2 :

 Qwant programme tv

Une recherche de « résultats » renvoie à ceux du tirage du vendredi 07 juin 2019 d'EuroMillions - My Million en 5e position, ceux du 23 août et du 7 juin en 7e et 8e position. Le descriptif de la page d'accueil des résultats des courses de ok-time.fr mentionne le moins de juillet, celui de fsbk.fr août, ffme.fr avril, protiming.fr mai, et francefootball.fr la 38e journée de la Ligue 1 de football 2018-2019, soit le 24 mai 2019.

Au mot « courses », on découvre que la page d'accueil de lescourseshippiques.com date du 28 juin dernier, courses.free.fr du 18 mai, les résultats d'On refait les courses sur RTL du 2 juillet, les résultats des courses hippiques de turfoo.fr du 30 juillet. Bref, l'année 2019 est partout alors que nous entrons dans le quatrième mois de 2020.

Qwant courses

En cherchant « pronostics PMU », ceux « de demain » de canalturf.com datent du 28 août, ceux « du jour et de demain » de turf-pronostics.com du 22 octobre, ceux de nouveauquinte.com du 20 octobre, et les trois pages de résultats et d'annonces des « courses du jour » d'infos-entrainement.fr des 8 et 23 octobre 2019 :

Qwant PMU

Les internautes cherchant des idées de « sorties » seraient quant à eux renvoyés aux bons plans du Pays d'Uzès pour le week-end des 23 au 25 août 2019, puis aux 23 idées pour se décoller des écrans par telerama.fr le 7 juin dernier, en 1er et 2e résultats. La page d'accueil de « Que faire à Paris ce week-end ? » de lebonbon.fr mentionne celui des 28 et 30 juin, celle de l'agenda d'allocine.fr le 7 août 2019.

En cherchant « sorties cinéma », par contre, la même page mentionne le 28 août. Les « sorties cinéma du mois » de cinefil.com datent de septembre, celles de cineserie.com du 18 septembre, de pix-geeks.com du 16 octobre, de jeuxactu.com du 21 août, de cinetrafic.fr du 23 octobre :

Qwant sorties

Le premier résultat au mot-clef « mercredi » ? La liste des « pronostics de demain » du site canalturf.com, en date du 28 août 2019. Le 3e résultat : l'agenda d'allocine.fr en date, là aussi, du 28 août, suivi des pronostics du 25 septembre puis du 9 octobre de canalturf.com. Le programme de « mercredi prochain » de tv-programme.com date, lui aussi, du 28 août. Les offres promotionnelles de lidl.fr du 21 août. Le pronostic vidéo de canalturf.com du 9 octobre 2019.

Le 4e résultat au mot-clef « dimanche » renvoie aux « derniers avis de décès » de libramemoria.com en date du 25 août. Les 8e, 9e et 10e résultats à des pages de canalturf.com datant de juin, août et mars 2019. La page « dimanche prochain » de tv-programme.com date, elle, du 25 août. Celle de retraitedanslaville.org du 22 septembre :

Qwant mercredi 

Des résultats parfois encore antérieurs à 2019

L'an passé, Qwant nous avait expliqué se focaliser sur les dix premières réponses, à mesure que « dès le 10e résultat, on tombe sous le 1% » de consultation. Or, le 4e résultat de la SERP de « teleloisirs » qui, avec 11 « modifications » en février (voir plus bas), est celle de l'index de Qwant qui aurait été la plus mise à jour le mois dernier (cf le fichier .pdf que nous en avons enregistré début mars), renvoie à une page « A la télé ce soir » datant du 2 novembre 2018.

Le 5e résultat renvoie de son côté à un fil de juillet-août 2005, le 6e à un article d'octobre 2019, le 7e, « Dans la presse pople (sic) cette semaine » à un article d'août 2018, le 8e à une page datée du 24 avril 2017 et le 9e à un tweet datant de décembre 2015. Le 11e renvoie à une vidéo publiée en octobre 2019, le 12e à une erreur 404, le 13e à une publicité pour un masturbateur postée fin octobre 2019, le 14e à une autre erreur 404, le 16e à un site affichant « 403 forbidden », le 18e à un avis publié « il y a 3 ans », le 20e à une vidéo ajoutée en mars 2018...

Et les 30 autres résultats datent de 2008, 2009, 2011, 2012, 2013, 2015, février, mai et décembre 2018, février ou octobre 2019, mais aucune page n'ayant été créée depuis. 

Des résultats « dans leur jus » depuis... six mois

Aucune des requêtes que nous avons vérifiées ne renvoie à des résultats mentionnant 2020. Pire : en octobre dernier, nous avions enregistré ces SERP et, si l'on excepte quelques modifications cosmétiques de présentation graphique, ils n'ont quasiment pas changé depuis ou sont les mêmes, dans le même ordre :

  • Qwant Ce Soir TV
  • Qwant samedi
  •  

Faute de réponses de Qwant à nos questions, il nous est impossible de comprendre pourquoi tout ou partie des SERP reposant sur son index seraient ainsi restés figés depuis six mois, ni si Qwant aurait par ailleurs concentré ses efforts sur d'autres mots-clefs ou vecteurs d'amélioration. 

Si nous avons parfois trouvé des résultats datant de 2020, il faut pour cela multipler mots clés et filtres, ce qui renvoie alors des résultats similaires à ceux de Bing. C'est le cas sur une requête se limitant aux articles de Next INpact (Qwant vs Bing), qui affiche majoritairement des articles de 2017 à 2019, mais un lien de 2020 (le même dans les deux cas).

S'il est loisible de penser que Qwant ait indexé nombre de pages web l'été dernier, ne serait-ce qu'en prévision du second audit que la Dinum allait effectuer au sujet de son index fin septembre, et a fortiori parce que, jusqu'en juillet et comme nous l'avions démontré, Qwant proposait des résultats datant de 2017, il nous est par contre impossible de comprendre ce pourquoi Qwant n'a rajouté aucune nouvelle page web à ses SERP depuis 6 mois.

Nous aurions aussi aimé pouvoir comprendre si ces problèmes sont la résultante d'un ou plusieurs bugs, de compromis voire de choix, ou de limitations techniques ou financières, ou encore de la fuite de cerveaux dont elle a été victime, que nous avions également documentée, et qui l'empêcherait de mettre son crawler à l'œuvre et son index à jour.

Le nouveau coronavirus n'est apparu sur Qwant que le 10 mars

Plaçons-nous désormais sur le terrain de l'actualité, avec un sujet « chaud » : Covid-19. Jusqu'à ce 10 mars, date à laquelle les résultats proposés pour le mot-clef « coronavirus » ont été soudainement mis à jour (alors que la France répertoriait pourtant déjà près de 1 800 cas confirmés, et 33 décès), la seule mention de l'épidémie apparue en Chine en décembre 2019 était un message sanitaire, ajouté à la main dans un bloc dédié.

Il renvoyait aux sites web mis en place par le gouvernement français et l'OMS : aucune des 50 pages web indexées et affichées dans les résultats de Qwant n'évoquait le Covid-19 (voir cette capture). Seul lien avec l'actualité récente sur cette page : la colonne de droite contenant deux articles d'actualité et deux tweets.

Mais les éléments de la colonne de résultats étaient bien datés : le premier renvoyait à une FAQ de l'OMS au sujet du syndrome respiratoire du Moyen-Orient (MERS-CoV) de mai 2017, l'autre à la description de la fiche Wikipedia, qui a prévalu du 13 août 2019 au 18 janvier 2020 (sans que l'on sache quand elle avait été indexée).

Le résumé de la fiche de l'OMS, en 3e position, datait de 2013, ce qui est d'autant plus incompréhensible qu'il avait été modifié en 2014, que Qwant a lui-même été lancé en 2013, mais qu'il n'était à l'époque qu'une interface récupérant les résultats indexés par Bing. Les 4e, 6e et 7e résultats renvoyaient eux aussi au MERS-CoV avec des données de santepubliquefrance.fr datant de 2012 à 2015, un communiqué de l'OMS daté de mars 2019, et un article de 2014. 

Le 10 mars, la colonnes de résultas de Qwant proposait certes plusieurs articles de presse (voir cette capture), mais datant de la 3e semaine de janvier, alors que l'épidémie était encore confinée à la seule Chine et qu'elle n'y avait fait qu'une vingtaine de morts. Le seul article consacré au « Premier décès en France lié au coronavirus » datait, lui, de 2013 :

Qwant mers-cov décès

14 des 15 résultats renvoyant au site de l'OMS portaient eux aussi au MERS-CoV découvert en 2012, le 15e datant de l'épidémie de SRAS en 2003. Le seul résultat de mars 2020 était consacré à la journée portes ouvertes de la cité scolaire Gambetta Carnot à Arras.

Le 16 mars dernier, Qwant renvoyait majoritairement aux dossiers spéciaux de médias et sites institutionnels français et internationaux. Ce, même s'ils ne semblaient pas avoir été mis à jour depuis que, le 12, le gouvernement avait décidé de fermer les établissements scolaires puis, le 14, une bonne partie des commerces.

Le seul article consacré à la propagation du virus en France était du Monde, datant du 24 janvier dernier, évoquant « un troisième cas confirmé en France » (alors que le cap des 5 400 cas confirmés avait été franchi le 15, dont 127 décès).

Le coronavirus : une « volonté divine », une « mise en scène », voire un « complot »

Depuis, la SERP a certes été mise à jour et propose quelques articles datant (au mieux, ce 1er avril) du 16 mars dernier, mais comprenant des pages datant de 2012 ou du coronavirus transmis par les chameaux en 2014, ainsi qu'une émission de kla.tv évoquant des réfugiés « utilisés pour déstabiliser les États de l'UE »...

qwant kla.tv

kla.tv ne comporte aucune mention de son affiliation, mais il suffit de quelques clics pour découvrir qu'il s'agit de la chaîne d'Ivo Sasek, gourou suisse complotiste, antisémite et révisionniste d'une secte pour qui le coronavirus « pourrait être une arme biologique militaire ciblée » qui « aurait été créé par la CIA pour affaiblir la Chine », avec l'aide de Georges Soros et Bill Gates.

En filtrant les résultats pour n'afficher que ceux indexés depuis un mois, les articles de Wikipedia consacrés au coronavirus et à la pandémie arrivent certes en première et deuxième position, mais étaient également suivis, la semaine passée, d'une vidéo de « Prédictions de voyance » mise en ligne par un médium et magnétiseur pour qui, « d'après les cartes, plus de 50 % du monde » sera touché par le coronavirus.

Étrangement, et alors que les médias, plateformes et réseaux sociaux n'ont de cesse de lutter contre les infox et théories complotistes qui pullulent depuis le début de la pandémie, on note que les deux vidéos présentées dans les premiers  résultats (du dernier mois) de Qwant émanent principalement de conspirationnistes et charlatans.

qwant coronavirus youtube

En 4e position, une autre vidéo de 48 minutes mise en ligne le 11 février et qui totalisait plus de 810 000 vues (elle est depuis passée en privé). Intitulée « Coronavirus : ce qu'on nous dit, ce qu'on nous cache » et mise en ligne par Mika Denissot, un « formateur de coach Holistique spécialisé en psychologie Algorithmique, Analytique et Transpersonnelle et analyse de rêves », elle entendait permettre de « s’y retrouver face à toutes les manipulations médiatiques que l’ont subis (sic) à longueur de journée au sujet du Coronavirus » (cf la capture d'écran).

Elle se basait aussi notamment sur un article publié par Natural News, site conspirationniste et anti-vaccins connu pour ses infox, qui avance que le coronavirus « serait un vaccin expérimental créé en laboratoire par des scientifiques », et que « tous les médias grand public nous mentent ».

Ces deux contenus ont ensuite été remplacés par une vidéo montrant Guo Wengui, milliardaire chinois exilé aux États-Unis après avoir fait l'objet de nombreuses accusations (de corruption notamment) par la Chine. Proche de Trump, accusé d'avoir contribué au relai de théories conspirationnistes sur le coranavirus, il y est présenté comme un « lanceur d'alerte » dans une interview menée par Steve Bannon, l'ex-conseiller (complotiste) de Donald Trump... 

Cette vidéo a ensuite elle-même été remplacée, en 3e position, par un « cours » d'un rabbin ultra-orthodoxe, Ron Chaya, pour qui « le coronavirus est une volonté divine » (à 6'50), qu'« on nous cache des choses » (à 14'40) mais que, à la lumière des textes « prophétiques » de la Torah, « c'est vraiment le déferlement des forces du mal » (à 27'25), que l'épidémie serait même un signe de « la venue du Messie » et qu'il faut « prier, prier et … prier ».

En 4e position, une interview vidéo d'un « médecin holistique », Tal Schaller, chaman reconverti dans l'urinothérapie et la désinformation complotiste d'après Conspiracy Watch. Intitulée « Coronavirus : faites confiance à votre système immmunitaire ! », il y explique que « la peur tue plus que les virus » (2'19), que « le virus n'est pas un ennemi mais un agent de dépollution, une femme de ménage » (4'45), que « les maladies c'est pas grave du tout, la peur de ces maladies virales est idiote » (5'30), que « non seulement les vaccins sont inutiles, inefficaces et dangereux, ce que je dis depuis un demi-siècle, j'ai écrit un livre "Vaccins, un génocide planétaire", c'est dire mon point de vue » (8'55), et qu'« aujourd'hui les médicaments tuent plus que les maladies » (11'08)...

Dans sa newsletter, Tal Schaller explique par ailleurs que « la Pandémie de coronavirus de Wuhan serait une MISE EN SCÈNE destinée à couvrir la crise de santé publique causée par le déploiement intensif de la 5G à Wuhan en 2019 », et qu'« il est possible que la pandémie de coronavirus actuelle soit due à des manipulations pour créer des virus tueurs beaucoup plus dangereux que les virus naturels ».

Qwant coronavirus bienfaits

Ce 27 mars, arrivait en 3e une vidéo sur les « bienfaits » et les « bons côtés du coronavirus », qu'il faudrait « regarder avec amour » plutôt que de se contenter d'en avoir peur, parce que « ce n'est pas quelque chose de mauvais fondamentalement, puisque tout ce qui existe est divin. Oui, le coronavirus c'est de la lumière qui ne s'est pas reconnue ».

L'auteur de la vidéo, qui explique sur son site web avoir « développé des capacités à soigner des gens à des milliers de kilomètres », et qu'il « communique quotidiennement avec l’au-delà », propose à ce titre de vous envoyer « gratuitement un soin énergétique de prévention du Coronavirus fait au son d'un tambour chamanique ».

Le 4e résultat est une nouvelle vidéo complotiste de Mika Denissot, « Effondrement économique et Enfumage médiatique », qui a pourtant été supprimée de YouTube, « car elle ne respectait pas le règlement de la communauté YouTube »...

Qwant ne sait ni n'explique pourquoi Benjamin Griveaux s'est retiré

Exception faite des deux blocs consacrés aux actualités et aux réseaux sociaux, un internaute qui voudrait en savoir plus sur Benjamin Griveaux n'a de son côté droit qu'à des articles de janvier à juillet 2019, voire antérieurs, plus un autre datant du 29 août, mais rien depuis. Et donc rien non plus au sujet du scandale qui l'a poussé à retirer sa candidature aux municipales de Paris le mois dernier.

Contrairement à Google et Bing, qui proposent des résultats tenant compte de leurs correcteurs orthographiques, une requête aux mots-clefs Benjamin Grivaux renvoie à des articles ayant mal orthographié son nom et datant, eux aussi et au mieux, de l'été 2019, mais également à 13 erreurs 404 ou sites ne répondant plus.

Elles correspondaient majoritairement à des pages probablement piratées par des spammeurs, à mesure que leurs résumés faisaient la promotion de « 2018 Marques Chaussure Air 270 Chaussures Max Nike Fqov62 Grandes OPTXZkiu », ou encore de « Baskets Coq Le GarconEnfant Cher Sportif Pas eH9YIWD2Eb », et dont on peine à comprendre pourquoi Qwant les a indexées en lien avec l'ex-porte parole du gouvernement. 

Qwant Grivaux Spam
En scrollant dans les résultats de recherche de Qwant avec une faute d'ortographe, des résultats bien étranges... 

8 % des résultats ne répondent plus

Marc Longo, poursuivi et condamné pour « dénigrement » à la demande de Qwant (qui a depuis perdu en appel), pour avoir déploré, au printemps 2019, que les résultats de Qwant renvoyaient à des contenus datant de 2017, a de son côté constaté que de nombreux autres résultats renvoyaient à des pages n'existant plus.

Après avoir interrogé quotidiennement les pages de résultats de Qwant sur 588 mots-clefs en février, il a découvert que 37 des 50 résultats (soit 74 %) à la requête « itinéraire michelin » renvoyaient sur des pages ne répondant plus. Sept d'entre eux au site d'un gîte dont archive.org indique qu'il était cybersquatté depuis novembre 2018 sur ces mots-clefs.

Les descriptifs de plusieurs autres pages ne laissent guère de doute sur l'absence de pertinence : « Astuce codes tomb raider,occasion or renault,les albums de pirouette com », « Via Itineraire Michelin jeune salope nu », « Changer avi en dvd,grossiste and coiffure » ou « tendres cousines de david hamilton,funny sexy webcam boob poker hot strip busty thong »...

Qwant itinéraire michelin

58 % des résultats aux requêtes « colissimo suivi » et « cuisine ikea » sont, selon ses relevés, également erronés, tout comme 50 % de « itinéraire michelin », 44 % de « mappy itinéraires », 40 % de « resultat loto », 30 % de « oui sncf », 28 % de « france5 » et 27 % de « ratp ». Voici une capture de ses propres analyses :

Qwant erreurs

Le faible pourcentage des similarités entre les résultats de la SERP de Qwant comparés à ceux de Bing et Google signe qu'ils émanent bien de l'index du moteur de recherche français. Au total, 2 282 (soit 7,8%) des 29 400 résultats analysés par Marc Longo renvoient à des erreurs 404 ou sites ne répondant plus. 

Nous n'avons pas vérifié l'intégralité des SERP analysées par Marc Longo, mais plusieurs de celles que nous avons testées manuellement, ainsi que via l'extension de LinkResearchTools – qui permet notamment de visualiser les erreurs 404 et les liens suspects sur une page web – ont confirmé un nombre élevé de pages et sites ne répondant plus.

80 % des résultats n'ont fait l'objet d'aucune mise à jour en février

La colonne C du tableur de la synthèse des résultats analysés par Marc Longo indique par ailleurs que Qwant a effectué très peu de modifications le mois dernier sur les près de 600 mots-clefs analysés :

Qwant MAJ

En triant le tableur en fonction du nombre de modifications, on découvre en effet que seuls 125 (soit 21,2 %) des 588 mots-clefs testés ont fait l'objet d'une ou plusieurs mises à jour en février, dont seulement 24 (soit 4 %) d'au moins 4 mises à jour, correspondant pour moitié à des résultats émanant très probablement de l'index de Bing (en mauve). 

A contrario, la totalité des mots-clefs n'ayant enregistré qu'entre 1 et 3 modifications, ainsi que les 463 résultats (soit 78,8 % du total des mots-clefs analysés) n'ayant fait l'objet d'aucune mise à jour en février, émanent du seul index de Qwant. De plus, et à l'exception des requêtes émanant de Bing, aucune des modifications émanant de l'index de Qwant ne semble reposer sur l'ajout de nouvelles pages indexées depuis novembre 2019.

Les mots-clefs que nous avons analysés montrent en effet qu'il s'agit essentiellement de changements dans l'ordre des résultats, ou de l'apparition (ou disparition) de résultats eux aussi datés.

Marc Longo évoque de son côté une « mise à jour qui semble manipulée en faisant bouger les résultats en permanence, mais en faisant alterner de vieux résultats avec d'autres vieux résultats, puis revenir au début avec à nouveau les premiers vieux résultats... le moins drôle, c'est d'alterner des résultats aux liens en erreurs avec d'autres résultats aussi vieux et en erreur... »

De plus, « l'ordre changé n'est pas variable (comme cela pourrait être le cas par des optimisations suite a des clics), mais il est fixe, c'est a dire qu'un jour on a une liste 1, le lendemain une liste 2 avec les mêmes liens dans un ordre différent, et le jour 3 on revient exactement à la liste du jour 1 ». 

Des requêtes (discrètement) modifiées à la main

L'an passé, Marc Longo avait par ailleurs remarqué que Qwant modifiait certains résultats à la main, pour faire disparaître notamment l'adresse IP du BingBot, le robot d'indexation de Microsoft, et donc sa dépendance à Bing.

Cette année, en réponse à Cédric O – qui avait déploré sur Twitter qu'« un enfant accède en moyenne à de la pornographie à 14 ans » – Marc Longo lui avait fait remarquer qu'une requête « mère et fils » faite sur Qwant renvoyait à des sites pornographiques dédiés à l'inceste...

Les résultats ont été modifiés dans la foulée, là aussi en interférant sur les résultats, Qwant ayant discrètement ajouté le mot « film » aux deux termes recherchés... mais tout en continuant d'afficher, en premier, un site de vidéos pornographiques d'incestes, en français cette fois :

Qwant inceste
En analysant les flux HTTP, on peut voir la requête réellement effectuée par le moteur

Une requête au mot « inceste » est, de même, redirigée vers les résultats de « inceste définition », « prostate » vers « prostate -porno », peut-être suite à ce signalement indiquant que le 2e résultat était un site porno, « astrophysicienne française noire » à « astrophysicienne française noire -xx » après qu'un internaute a alerté Qwant que le premier résultat renvoyait lui aussi à du porno, « lesbienne » vers « lesbienne -sexy -youtube -film -fontaine -chatte -baise ».

Ce genre de caviardage est également utilisé aux mots-clefs « macron » et « emmanuel macron », qui renvoient tous deux aux résultats d'« Emmanuel Macron président République », avec une SERP somme toute étonnante : en plein mouvement social de grèves contre la réforme de la retraite, 5 des 8 premiers résultats proposés par Qwant renvoyaient à l'annonce faite en décembre dernier qu'il renonçait à sa retraite de président de la République :

Qwant Macron

Alors que les termes recherchés figurent en gras sur les pages de résultats de Qwant, et que les 4 mots-clefs renvoyés à la requête « macron » modifiée apparaissaient clairement en janvier dernier, la fonctionnalité a été récemment désactivée. Résultat : on ne voit plus les mots-clefs de la véritable requête en gras.

Qwant Macron

« Il nous faudra évidemment un peu de temps »

Auditionné le 12 juin 2019 par la commission d'enquête du Sénat sur la souveraineté numérique, Eric Léandri, l'ex-PDG et cofondateur de Qwant expliquait : « un moteur de recherche, c'est par définition un outil qui permet de savoir où se trouve l'information recherchée. Au préalable, il faut donc qu'il connaisse le maximum d'informations pour pouvoir répondre à la question qui lui est posée. C'est le rôle de l'index ».

Avant de préciser : « pour constituer son index, Qwant envoie des logiciels appelés crawlers, ou indexeurs, qui, simulant l'activité d'un internaute lambda, se promène sur internet, regarde le contenu de la page et en note les changements ». Il ajoutait : « aujourd'hui, l'index de Qwant compte 20 milliards de pages, dont 2 milliards sont visitées chaque jour »... mais sans que l'on comprenne donc pourquoi ces 2 milliards de pages « visitées chaque jour » n'auraient donc et pour autant pas permis de mettre à jour de nombreux résultats du moteur depuis près de six mois.

Contacté le 6 mars dernier, Qwant a refusé de répondre à nos questions, se contentant de nous expliquer que « nous nous consacrons à améliorer encore et encore nos produits existants et les services que nous rendons aux internautes. Nous avons bien conscience qu'ils n'ont pas et ne sont pas toujours à la hauteur des attentes suscitées. La tâche est, vous vous en doutez, difficile et très prenante. Nous en sommes responsables et avons conscience du chemin à parcourir ».

Évoquant le départ d'Éric Leandri en janvier, et son remplacement par Jean-Claude Ghinozzi, ex-« Général Manager Retail Sales & Marketing » chez Microsoft France, Qwant précise que « la période de transition dans laquelle nous sommes engagés depuis ce début d'année, d'une nature inédite dans l'histoire de Qwant, nous oblige à nous concentrer sur la construction de l'avenir et non à revenir sur ce qui a pu être fait, ou pas fait, par le passé. Il nous faudra évidemment un peu de temps mais soyez assurés que toute notre énergie est consacrée à cette transition dont vous constaterez, nous l'espérons, les effets ».

Contactée dans la foulée, et malgré plusieurs relances, la Dinum n'a pas non plus répondu à nos questions. Le 11 mars dernier, elle avait mis en ligne une note sur l'« installation par défaut d’un moteur de recherche respectueux de la vie privée dans l’environnement de travail numérique des agents ».

Nadi Bou Hanna, directeur interministériel du numérique, y explique que « le secrétaire d’Etat chargé du numérique Cédric O a annoncé que l’Etat privilégierait désormais l’installation sur les postes de l’administration de moteurs de recherche qui respectent des critères exigeants en termes notamment de respect de la vie privée et de la protection des données ».

Dès lors, explique-t-il, « il semble pertinent de configurer pour l’usage par défaut de l’administration un moteur appliquant préférentiellement le droit européen et disposant également de son propre indexeur ». En l'espèce, « Qwant réunit, à ce jour, l’ensemble de ces qualités, dont les aspects techniques ont été vérifiés par un audit interministériel ».

Dans le communiqué qu'il avait consacré à son destin de « moteur de recherche de l’administration française », Qwant expliquait que « les services de l'État ont en effet identifié une série de critères techniques et juridiques que doit remplir un moteur de recherche installé par défaut sur les postes des agents de l’administration, puis déterminé que "le seul capable de répondre aux attentes du gouvernement" est Qwant ».

Faute de réponses à nos questions, il nous est impossible de savoir si l'audit interministériel avait également pour vocation de vérifier la fraîcheur, la pertinence et donc la qualité des résultats proposés par Qwant. Et nonobstant le fait que, suite à notre enquête, qui avait révélé que l'index de Qwant ne proposait que 50 résultats seulement (contre 150 lorsqu'ils émanaient de celui de Bing), le nombre de résultats proposés pour l'ensemble des requêtes effectuées sur Qwant, qu'elles émanent de Bing ou de son propre index, soit subitement passé de 150 à 50 pages web seulement.

Qwant n'en a donc pas moins vocation à devenir le moteur de recherche par défaut « sur l’ensemble des terminaux, fixes et mobiles » des agents publics « d'ici le 30 avril 2020 », même si la note de la Dinum précise que « vous veillerez toutefois à ce que les agents puissent librement modifier ce choix de manière simple et autonome ». De quoi, en tout cas, booster la part de marché de Qwant qui, après avoir atteint un pic de 0,89% en janvier, est retombée à 0,84% en février, et 0,78% en mars :

Qwant statcounter pdm

Qwant stats mars
Crédits : statcounter.com

Cette faible part de marché est cela dit d'autant plus étonnante que, dans son communiqué, Qwant se félicitait également d'être devenu le moteur de recherche par défaut de l’Assemblée Nationale, du Conseil Économique, Social et Environnemental, du Ministère des Armées, du CNES, du CEA, de la Banque de France, de 10 des 13 régions de France, de nombreuses villes (dont Paris, Rennes, Nice, Toulouse, Issy-les-Moulineaux...) et départements (dont les Hauts-de-Seine, Ille-et-Vilaine, la Haute-Garonne...), mais également d'une ribambelle d'entreprises privées (de Thalès à Michelin en passant par Safran, BNP Paribas, France Télévisions, etc.).

Capital, en novembre dernier, avait à ce titre raconté que nombre des employés des administrations ayant fait de Qwant leur moteur de recherche par défaut s'empressait de « repasser sur Google », évoquant même une « blague vacharde » qui voudrait que « le premier mot-clé recherché sur Qwant, c’est "Google" »... ce qui reste cela dit à démontrer.    

Voici la liste des questions que nous avions posé par email à Qwant (et pour partie à la Dinum) :

Bonjour,

Suite à mes enquêtes de l'année dernière sur les résultats de Qwant, et les promesses d'amélioration faites depuis par la direction précédente, j'ai effectué différentes séries de relevés. Notamment en octobre dernier, sur une série de mots clés « du quotidien », dont Eric Léandri avait indiqué qu'ils étaient parfaitement intégrés à l'index de Qwant.

Une autre grosse enquête m'avait empêché jusque-là de m'y repencher plus avant, mais j'ai enfin pu m'y replonger ces derniers jours. J'ai ainsi pu constater que la grande majorité des résultats, émanant de l'index de Qwant et renvoyés dans la colonne principale, dataient pour une bonne part de l'été 2019, au mieux d'octobre/novembre 2019, mais rien depuis :

  • Pouvez-vous nous expliquer pour quelle raison aucun résultat récent n’apparaît actuellement dans les résultats principaux ?
  • Pourquoi avoir modifié le nombre de résultats affichés à 50, alors qu'ils étaient précédemment de 150 (quand issus de Bing) ou de 50 (quand issus de votre index) ?
  • Quelles sont les mesures que vous comptez prendre à plus ou moins long terme pour améliorer la situation ?

Selon les derniers chiffres publics communiqués par Qwant, ses crawlers visitent chaque jour 2 milliards de page.

  • Pouvez-vous nous confirmer ce chiffre, et pourquoi les informations qui en résultent ne semblent pas visibles ?

La section « Actualités » du site (affichée dans la colonne de droite), propose des résultats qui semblent, eux, à jour.

  • Est-ce que cette section est opérée par Qwant ou de résultats récupérés auprès de Bing ?

Dans ses conclusions révélées par la presse, la Dinum indiquait que lors de son analyse, 64 % des résultats de Qwant émanaient de Bing, et que l'objectif était d'atteindre 50 % d'ici fin 2019.

  • Est-ce que cet objectif a été atteint, si oui, comment est effectué cette mesure exactement ? Si non, quelle est la part des requêtes issues de l'index de Qwant ou de Bing sur le mois de février 2020 ?
  • Quels sont les typologies de sites et pages que Qwant indexe en priorité pour afficher ses propres résultats plutôt que ceux de Bing ?
  • D'après Acteurs Publics, l'audit précisait que « l’index présenté contient 15 milliards de documents » : à quoi correspond le terme de « documents » ?
  • Serait-il possible de disposer d'une copie du rapport de la Dinum ?

Lors de précédents relevés, nous avions remarqué que certaines requêtes renvoyaient vers des résultats émanant d'autres mots clés, ajoutant ou excluant des mots selon les cas. Par exemple, une recherche sur le terme « Lesbienne » renvoie en fait les résultats de « lesbienne -sexy -youtube -film -fontaine -chatte -baise ».

  • Est-ce que ces modifications sont effectuées de manière manuelle, si oui selon quels critères ? Si non, selon quelle méthode ?
  • Auparavant, les mots clés de la requête réellement effectuée étaient mis en gras sur la page, pourquoi n'est-ce plus le cas ?

Marc Longo vient d'indiquer avoir effectué une analyse sur environ 6 00 mots clés sur l'ensemble du mois de février, et avance que 10 % des 30 000 résultats analysés renverrait vers des page 404 ou serveurs injoignables. Ces données confirment également nos propres relevés de résultats très peu mis à jour depuis la période de la seconde moitié de 2019.

  • Comment expliquez-vous qu'une part si importante des résultats renvoient vers des pages n'existant plus ?

Dans une interview publiée peu après son arrivée, Jean-Claude Ghinozzi, interrogé par Siècle digital sur sa volonté de « recentrer vos efforts sur le Search, est-ce en lien avec les accusations portées entre autres par Marc Longo, et relayées par Next INpact, qui parlaient d’un moteur de recherche bloqué en 2017 ? » a répondu « Non, je n’ai personnellement aucun intérêt à commenter ces attaques, qui ont fait beaucoup de mal à l’entreprise, et peiné les employés dont je fais partie, puisque je suis dans l’aventure depuis plus de 2 ans. L’entreprise Qwant c’est à 90% des ingénieurs qui produisent de la technologie tous les jours. »

  • Considérez-vous que le travail de journalistes enquêtant sur le fait que les résultats d'un moteur de recherche, à l'été 2019, dataient de 2017, constitue une "attaque" ?
  • Avec le recul, pensez-vous que la façon dont Qwant a décidé de répondre à la publication des enquêtes concernant son index ou l'environnement de travail au sein de l'entreprise ait été la bonne ?
66

Écrit par Jean-Marc Manach

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Des résultats datant de... l'été 2019, et pas mis à jour depuis

Ce soir à la télé... en 2019

Des résultats parfois encore antérieurs à 2019

Des résultats « dans leur jus » depuis... six mois

Le nouveau coronavirus n'est apparu sur Qwant que le 10 mars

Le coronavirus : une « volonté divine », une « mise en scène », voire un « complot »

Qwant ne sait ni n'explique pourquoi Benjamin Griveaux s'est retiré

8 % des résultats ne répondent plus

80 % des résultats n'ont fait l'objet d'aucune mise à jour en février

Des requêtes (discrètement) modifiées à la main

« Il nous faudra évidemment un peu de temps »

Commentaires (66)


Wow. <img data-src=" />


“Serait-il possible de disposer d’une copie du rapport de la Dinum”



Par la CADA, envisageable ?


he bien, quel dommage, j’y croyais à ce moteur de recherche français … mais là, ils ont encore un peu de travail !


Vu d’où ils partent, c’est logique que la nouvelle direction ne résolve pas les problèmes en trois mois. Et qu’ils n’aient pas non plus envie de s’étaler sur le passé peu reluisant.



RDV dans un an pour voir si l’évolution.


J’arrive pas à savoir si c’est un un gigantesque entubage ou s’ils se rendent juste compte que le boulot que font Google & consorts depuis des années c’est un Taff de malade .. et que maintenant que les GAFA sont énormes, c’est un travail titanesque que de réussir à faire ne serait-ce que 10% de la “qualité” de ces systèmes&nbsp;


Au début, je me suis dit, tiens, un petit poisson. Puis j’ai jeté un oeil par curiosité. Et j’en tire la conclusion que si s’en est un, vous jouez avec le feu chez NextINpact <img data-src=" />



Le constat à faire est malheureusement déplorable. J’ai tenté d’utiliser Qwant (mon apprenti avait réussi à me convaincre de faire un essai). J’ai tenu 3 jours. Entre temps, mon apprenti est passé à Duckduckgo quand il a vu le temps qu’il perdait pour des recherches (bon, je précise, des recherches dans le domaine de l’IT). Il en a eu marre que je trouve en 2min des réponses à des questions dont il cherchait la réponse depuis 2h.



Qwant, c’est bien en théorie, mais malheureusement, après tant d’années, ça ne décolle pas car les résultats ne sont pas là. Par contre, ils multiplient les projets… <img data-src=" />



J’ai juste l’impression que maintenant, c’est devenu un puit sans fond. C’est triste à dire, mais je crois qu’il faudrait dire stop (en tout cas, je ne veux plus que mes impôts financent ce projet, il l’a déjà assez été pour des résultats plus que légers)


J’avais lu il y a pas mal de temps que la stratégie de Google était de faire une grosse annonce par jour, pour que le cours de la Bourse aille toujours vers le haut.

J’ai l’impression que Qwant a tenté de faire la même chose, mais au bluff. Là où Google produisait du résultat, Qwant produit… pas grand chose.


Honnêtement j’ai du mal à comprendre. J’utilise Qwant à 99%, le 1% des requêtes restantes étant des compléments faits sur d’autres moteurs de recherche quand je ne trouve pas sur Qwant (DuckDuckGo, Startpage, voire Google directement). Et ces derniers ne me donnent généralement pas plus satisfaction que Qwant.

Après, je fais assez peu de recherches d’actualités, et je me sers encore des services de Google pour des questions spécifiques (notamment Google Scholar). Et sur les questions informatiques, c’est souvent de vieux résultats quand il crawle les forums; il paraît que Google est bien plus fort pour ça, notamment pour les développeurs.

Mais globalement, je ne sais pas si c’est que je correspond à un type d’usagers bien adaptés à Qwant, mais c’est mon moteur de recherche principal depuis quelques années et il me convient bien.


Un exemple : je viens de chercher (par hasard) l’origine de l’expression “fort comme un Turc”. Et apparemment un film turc fait l’actualité sur Netflix, Qwant me sort des actualités du jour sur le film en question, avec des articles d’aujourd’hui (voir capture d’écran). Ok c’est pas un test systématique, et peut-être que ça provient de Bing… Mais j’ai toujours l’impression d’un énorme décalage entre mon usage quotidien de Qwant et les articles de Jean-Marc Manach, dont je respecte beaucoup le travail par ailleurs.

&nbsp;


Sauf erreur les crawlers se sont les robots qui parcourent le web. Ils sont aussi surnommés bot.



Est-ce que Qwant communique sur son robot?? Quels paramètres&nbsp; doivent mis par les sites web dans le fichier robot.txt pour bien accueillir leur crawler??

Comment un robot de Qwant peut-il être identifié dans les logs d’un site web?? (pour avoir participé à de la modération sur un forum, on avait dans les connexions au forum le passage des robots indexeur de Google, Bing, Yahoo & Co).


C’était pas une bonne idée de confiner Manach…


J’utilise assez Qwant pour les images mais c’est assez désespérant de voir le peu d’images qu’ils ressortent sur une recherche comparé par exemple à Startpage.


Mon enquête, comme indiqué, porte sur les résultats émanant de l’index de Qwant; en l’espèce, votre requête vous renvoie à des réponses émanant de Bing :&nbsp;https://www.bing.com/search?q=fort+comme+un+Turc&go=Rechercher&qs=ds&form=QBREhttps://www.qwant.com/?q=fort%20comme%20un%20Turc&t=web&nbsp;L’“énorme décalage” entre votre usage quotidien de Qwant et mes articles émane donc très probablement de… Bing, pas de Qwant.



Je n’ai rien contre Qwant, dont je partage (et promeut, depuis 20 ans) les valeurs ès-vie privée, mais&nbsp;mon job est aussi d’analyser & vérifier qu’il fait vraiment ce qu’il prétend, tout simplement.


Dire que Mme Albanel avait bien vu 5 gus dans un garage, elle avait juste croisé l’équipe de Qwant. Victime comme Roselyne Bachelot.



Excellente analyse de fond, encore un sujet dont on n’entend parler qu’ici (et merci pour ça)… Pourtant si le moteur est édité à la main, libre à eux d’influer sur des mots cles pour les orienter. C’est beau pour la garantie d’objectivité des résultats proposés dans des services publics… Pas très rassurant.


J’étais un fervent défenseur de Qwant et j’essayais de porter la bonne parole en faisant sa promotion mais depuis quelques temps je l’utilise moins car il faut se rendre à l’évidence les résultats sont loin d’être pertinents.


Alors chez nous à la DGFIP, dans mon service on a tous eu la MAJ obligatoire, et a peine passé hop on repart chez Google …



Les résultats de Qwant sont à chier, C’est de la merde mais française youpi.


C’est malheureux, mais la meilleure fonction de qwant c’est !g


Et du coup quel moteur de recherche on doit utiliser pour avoir du respect de la vie privée ?

J’utilise Qwant depuis un certain temps et il est vrai que les résultats ne sont pas toujours à la hauteur pour ce qui concerne le milieu professionnel, pour ce qui est perso ça va je trouve.

Donc vrai question, on utilise quel moteur de recherche respectueux, fiable et efficace ?


Bonne question. Perso je suis passé sur un méta moteur Searx. Mais est-ce vraiment mieux…




Avec le recul, pensez-vous que la façon dont Qwant a décidé de répondre à la publication des enquêtes concernant son index ou l’environnement de travail au sein de l’entreprise ait été la bonne ?



Est-ce vraiment opportun, voire pertinent, ce genre de questions ? <img data-src=" />


J’utilisais Qwant encore il y a peu mais… Trop souvent, il ne trouvais pas ce que je recherchais (genre des drivers Win95 pour de vieux P2) alors que google trouvait systématiquement ce que je cherchais… Ce, de plus en plus souvent. Il y a 2 mois, j’en ai eu marre de faire sans cesse la navette entre Qwant et Google et suis repassé sur ce dernier par défaut, après quand même 5 années à y croire…



Je réessayerai dans quelques années, si tant est qu’ils fassent d’énormes progrès avec leur moteur (et ils partent de loin)…


Les clients web identifient leurs requêtes auprès de sites web via ce que l’on nomme le “User-Agent”.



Chaque navigateur, et même chaque version de navigateur, ainsi que chaque bot en ont un spécifique. Ce n’est pas une obligation légale, mais un usage général, respecté par tous les crawlers dits “légitimes”.



Le bot de Qwant semble se présenter aux sites web avec un User-Agent incluant le mot “Qwantify”, et semble respecter le standard (de fait) robots.txt.








gonzaguedambricourt a écrit :



J’arrive pas à savoir si c’est un un gigantesque entubage ou s’ils se rendent juste compte que le boulot que font Google & consorts depuis des années c’est un Taff de malade .. et que maintenant que les GAFA sont énormes, c’est un travail titanesque que de réussir à faire ne serait-ce que 10% de la “qualité” de ces systèmes&nbsp;





+1



On est plus en 1995 : Aujourd’hui, si tu lances un crawler web , tu choperas au mieux 1% des pages et il te faudra un DC entier pour stocker les résultats.

J’avais à une époque essayé seeks et yacy, pour jouer.

Elle est loin l’époque de yahoo.

&nbsp;

Aujourd’hui Google a réussi à inverser la tendance : Avant c’était à eux de crawler. Maintenant, c’est aux sites web de respecter les règles de google si ils veulent être référencé.



&nbsp;C’est pour ça que Qwant n’a aucune chance : Qui va aller se faire chier à regarder comment se faire référencer par Qwant ? Pire encore , payer pour ça ?

Bing tente le coup car Microsoft peux imposer un navigateur et pousser un moteur de chercher (via windows).

Apple pourrait aussi, si ils le voulaient, jouer à ça.



Mais les autres…



&nbsp;



En devenant moteur de recherche des services publics (les pauvres déjà qu’ils sont mis en pièces, on pourrait au moins leur mettre par défaut un vrai moteur de recherche ^^), qwant a des investissements publics ?



Parce que la seule question est là, que ce moteur soit à la ramasse chacun peut s’en convaincre facilement. Que la pertinence de ses résultats soit inversement proportionnelle à sa com sur tous les sujets à buzz, là encore la presse et en particulier Jean-Marc n’ont pas manqué de le démontrer. Merci également à lui de relever au passage les bricolages sur les requêtes, qui seront probablement justifiées “par l’activation de la cache en sommeil de 2014, réactivitée par le stagiaire qui est depuis confiné avec note vrai index interne, qui lui marche mieux que jamais, pas de bol “.



Mais si cette usine à gaz n’a plus le bénéfice d’argent public, finalement ça n’a pas d’importance.



En revanche si c’est toujours le cas, c’est un scandale.








Soriatane a écrit :



Sauf erreur les crawlers se sont les robots qui parcourent le web. Ils sont aussi surnommés bot.



Est-ce que Qwant communique sur son robot?? Quels paramètres&nbsp; doivent mis par les sites web dans le fichier robot.txt pour bien accueillir leur crawler??

Comment un robot de Qwant peut-il être identifié dans les logs d’un site web?? (pour avoir participé à de la modération sur un forum, on avait dans les connexions au forum le passage des robots indexeur de Google, Bing, Yahoo & Co).





Cherche le robot “bing-fantomas” dans tes logs



Merci Jean-Marc pour ton article, on imagine pas le bien que cela fait au citron de lire un article argumenté sur autre chose que le COVID19 !


En effet, et une recherche sur Griveaux (pour reprendre votre méthode) me renvoie des résultats d’actualité en majorité obsolète ou peu pertinents quoique récents : une blague d’une personnalité sur l’affaire datant d’une semaine côtoie des actualités de l’époque où Griveaux était encore candidat. Rien sur l’entre-deux qui est pourtant le plus pertinent, et qu’un crawler bien conçu aurait dû identifier - ne serait-ce qu’en comptant les liens sur / entre les sites classiques et sur les réseaux sociaux.

Un genre de méta-moteur de recherche Bing hybridé avec un moteur de recherche orienté vie privée, en somme. S’ils font assez bien le boulot de tampon entre Bing et leurs usagers en attendant de construire un crawler et un index suffisamment performants, cela reste digne d’être soutenu, je pense. Mais ils méritent d’être aiguillonnés en chemin.


Euhhh… Juste édifiant.


le foutage de gueule intégral. j’avais déjà perdu confiance en Qwant, mais là, c’est la preuve qu’il fallait pour en être convaincu: ils ne sont pas du tout au point, et de très loin.


On dirait que la partie indexation ne fonctionne pas correctement. Il faut un coup de pression pour que quelqu’un relance l’indexation et il doit planter au bout d’un moment sans personne pour le relancer.

Ensuite, ils n’ont visiblement pas de tri par catégorie de ce qu’ils index. ce qui pourrait permettre d’éviter d’afficher des résultats indésirables si un mot clé de la catégorie est utilisée.



En résumé, il y a du travail sur l’indexation/catégorisation (1ère partie) et sur la compréhension de la demande et la pertinence du résultat (2ème partie).



Ils devraient d’abord travailler sur la 1ère partie car sans un résultat stable et régulier, ils n’avanceront pas efficacement sur la 2ème partie sachant que c’est la plus stratégique/compliquée.


La prophétie va devenir vraiment réalisable… Qui va taper “Qwant” dans Qwant pour tout faire planter…?☺








manhack a écrit :



Mon enquête, comme indiqué, porte sur les résultats émanant de l’index de Qwant; en l’espèce, votre requête vous renvoie à des réponses émanant de Bing : https://www.bing.com/search?q=fort+comme+un+Turc&go=Rechercher&qs=ds&form=QBREhttps://www.qwant.com/?q=fort%20comme%20un%20Turc&t=webL’“énorme décalage” entre votre usage quotidien de Qwant et mes articles émane donc très probablement de… Bing, pas de Qwant.







J’ai effectué la recherche sur les deux sites et ils ne renvoient pas les mêmes résultats. Certes, il y a beaucoup de résultats en commun (pas forcément à la même place), mais ces résultats sont aussi en commun avec… Google. Possiblement parce qu’ils sont pertinents, en fait. Mais Qwant renvoie des résultats que Bing ne renvoie pas et vice-versa, en tout cas sur les deux premières pages.



tu as duckduckgo par exemple, qui utilise le moteur de google mais en anonymisant les requêtes.


Vous arrivez à vous faire avoir par n’importe quel article soit disant sérieux…








PercevalIO a écrit :



La prophétie va devenir vraiment réalisable… Qui va taper “Qwant” dans Qwant pour tout faire planter…?☺









heavy breathing



https://lehollandaisvolant.net/img/b2/qwant-qwant.png



De quoi parles-tu ?








bad10 a écrit :



tu as duckduckgo par exemple, qui utilise le moteur de google mais en anonymisant les requêtes.





Duckduckgo qui utilise le moteur de Google ?

A moins que je me trompe, il utilise en complément Bing/Yahoo/Yandex.



Concernant DuckDuckGo, j’avais lu deux articles ici et qui disent qu’il est sous la juridiction américaine, avec tous ce que ça entraine derrière…

&nbsp;

Du coup, qu’en est-il vraiment ?


Je ne connais pas “Searx”, il faut que je regarde


Qwant pourrait rattraper son retard, petit à petit. Même s’il n’arriverait jamais au niveau de GG, il pourrait devenir pertinent malgré tout.

Mais il faudra se concentrer sur le moteur pas sur des tonnes de projets annexes. Et il faudrait avoir des sources de revenus, donc revendre des données… Il n’y a pas de secret, le travail énorme, sur une dizaine d’année il est réalisable, mais il coûterait cher. C’est pas les aides à droite à gauche qui vont subvenir au maintient d’une Infra et du dev.



Ne faudrait t’il pas mieux arrêter de protéger la vie privée, tout en se disant que au moins on serait sur un système Francais. Plutot que de vouloir faire de la pseudo vie privée qui ne tient pas debout ? Pseudo vie privée parce que je pense que MS n’a pas de mal à retrouver qui est derrière le PC vu le faible degré d’anonymisation…


Perso j’ai remplacé Qwant par Startpage qui anonymise les résultats en provenance de Google. Je pense malheureusement que c’est ce qu’il y a de mieux pour l’équilibre vie privée / résultats pertinents.



Pourtant j’ai un temps fait la promotion de Qwant dans mon entourage (et installé), mais tous les articles ici sur NXi à la fois sur la performance du moteur et le management qui y règne ont fini d’achever la confiance que j’avais dans cette société.



Qwant s’est trop dispersée (Maps, Junior, Music), comme s’ils avaient voulu noyer le poisson. J’aurais préféré le discours honnête (on en chie c’est un travail titanesque et on n’arrive pas aux résultats attendus) plutôt que mensonger (tout va bien, circulez, y’a rien à voir).



L’Europe devrait investir des milliards pour aider à construire un index “souverain”. On est une colonie numérique des États-Unis d’Amérique.


Ya clairement des bugs ou des problèmes du coté de Qwant.

&nbsp;

J’ai refait (aujourd’hui le 02/04/2020) certaines des recherches de Jean-Marc par exemple “ce soir à la télé”.

Et Qwant affiche des trucs bizarre/erronés: le 5e résultat c’est tv Mag du Figaro qui indique dans l’encart de description que c’est le programme tv du vendredi 12 juillet 2019. (cf. lien:https://www.qwant.com/?q=ce%20soir%20%C3%A0%20la%20t%C3%A9l%C3%A9&t=web)



Sauf que si on clique dessus, on tombe sur le résultat d’aujourd’hui, le jeudi 2 avril 2020!!

Donc on dirait que Qwant crawle et met à jour ses urls (ou alors l’url programme tv du jour est toujours la même) mais l’encart descriptif du lien n’est pas mis à jour.

&nbsp;

Même bug pour la recherche replay https://www.qwant.com/?q=replay&t=web)

Le 1e lien comprend dans l’encart “Le guide du replay Diffusé le 1706” sauf que si on clique on tombe sur une page avec des replay de février et mars 2020, dont un du 31 mars.



En regardant la recherche “samedi”, on voit bien qu’ils sont par contre bloqué en 2019 comme le fait remarquer Jean-Marc. Et quand on clique sur les liens on arrive bien sur la page de 2019.

&nbsp;

Bref je sais pas comment ils se démerdent chez Qwant ca doit pas être facile mais c’est pas gagné!!



Encore merci Jean-Marc pour cet article en tout cas.


C’est parce que l’URL est générique, mais les infos remontées datent sans doute du dernier crawl indexé. Du coup, tu as de vieilles infos, mais l’URL renvoie toujours vers les derniers résultats.



Un peu comme sur NXi avec #LeBrief qui renvoie toujours sur le dernier publié :&nbsp;



http://www.nextinpact.com/lebrief


Ca fait quelques semaines que je l’utilise, en mode auto hébergé, et c’est clairement plus pertinent que Qwant au niveau des résultats. Alors que j’ai également fait parti des personnes qui étaient à fond derrière Quand à ses début




Capital, en novembre dernier, avait à ce titre raconté que nombre des employés des administrations ayant fait de Qwant leur moteur de recherche par défaut s’empressait de « repasser sur Google », évoquant même une « blague vacharde » qui voudrait que « le premier mot-clé recherché sur Qwant, c’est “Google” »… ce qui reste cela dit à démontrer.

Chez nous, c’est le cas.

Soit les personnes connaissent un peu le fonctionnement de Firefox et changent le moteur de recherche par défaut pour mettre DDG ou Google, soit elles ne connaissent pas et la première recherche faite est “google” sur Qwant.








David_L a écrit :



….







Pour vous aider j’utilise qwant pour mes recherches d’actu uniquement, et là il semble que cela fonctionne.

Tapez par exemple Boeing ou Airbus et les résultats sont souvent mis à jours.

Chose encore plus balaise, les resultats du module actualité et du module recherche diffèrent !!



Exemple avec Boeing :

Recherche donne en 5ème position un article du 6 novembre 2019

Actualité donne des articles datant d’il y à a peine 45 minutes



Dans le genre bizarre ça se pose là xD

Peut être que chez qwant on a délaissé le moteur de recherche pour les fonctions associés ?



Je ne me suis pas bien renseigné sur Searx.

Mais il me semble que si tu l’utilises en auto-hebergement, et que tu as donc très peu d’utilisateurs différents sur ton moteur de recherche, ça rend inefficace le côté vie privé.


Mouai, alors à quitter Google pour Qwant suite à une mise à jour, revenir sur Google n’est pas forcément pertinent vu le nombre de moteur de recherche existant (parce que le but c’est quand même d’éviter Google).



Perso vu que DuckDuckGo est au USA et utilise du AWS, il fera la taf mais j’éviterais.

Nous avons aussi donc Ecosia (Allemand il me semble)

StartPage

SwissCows (Chuisse forcément)



Et une multitude d’autre. Presque tous cependant utilise en source les résultats d’autres moteurs (Bing / Google). Sauf erreur, Qwant est l’un des seuls à faire son propre index (j’exclus YaCy du fait de son fonctionnement, même si le réseau utilise son propre index).


Ce moteur de recherche est une arnaque depuis le début, cette boite n’est là que pour récupérer des aides de la Franch Tech, de l’état et de l’Europe.

A la base c’était bing le véritable moteur de Qwant…


Effectivement, étant le seul utilisateur, 100% des recherches provenant de mon instance Searx sont les miennes et sont donc associées à mon IP perso (et un peu à l’IP de mon taff).

Je réfléchissais justement à transférer Searx sur mon serveur OVH histoire de dissocier mes recherches de mon IP publique. Faudra juste que je vois au niveau des logs comment tout couper (étant le seul utilisateur et auto-hebergé, je me suis pas trop posé de question sur les logs).



Pour le Coronavirus, c’est normal, il n’est apparu en France que le 10 mars, avant, c’était une simple gripette de saison <img data-src=" />


Est-ce que ces résultats ne sont pas ceux issus de bing ? Comme JMM l’a expliqué, cette enquête ne porte que sur les résultats propres au crawler de Qwant.








JFP285 a écrit :



S’ils font assez bien le boulot de tampon entre Bing et leurs usagers en attendant de construire un crawler et un index suffisamment performants, cela reste digne d’être soutenu, je pense. Mais ils méritent d’être aiguillonnés en chemin.&nbsp;





J’aurais été d’accord si ils avaient été transparents dès le départ, si ils avaient reconnus leurs erreurs, leurs faiblesses (dont leur dépendance à Bing), et si ils n’avaient pas fait de la comm’ mensongère.









Arkeen a écrit :



Est-ce que ces résultats ne sont pas ceux issus de bing ? Comme JMM l’a expliqué, cette enquête ne porte que sur les résultats propres au crawler de Qwant.







Nope les résultats sont différents entre Qwant et Bing



Ça y est, j’en ai ma claque. J’utilisais Qwant depuis quelques années et j’en ai fait la promotion autour de moi mais là c’est bon, c’est terminé. J’ai fermé les yeux sur les précédents articles publiés par NXI en me disant que Qwant allait s’améliorer mais force est de constater que rien n’a changé ou presque en un an… C’est désolant, j’y croyait pas mal à ce projet :(


Vu que pas mal de choses ont changé en interne, c’est justement le bon moment pour donner une seconde chance, non ?



Perso j’attends de voir comment ça évolue (duckduckgo en attendant), mais justement c’est (peut-être, on verra bien) le moment d’y croire réellement.


Ouais, bah ça ne sent pas bon. Je ne suis pas prêt de lacher DuckDuckGo. Qwant aurait mieux fait de bosser sur un meta-moteur. On dirait qu’ils patchent leur moteur au petit bonheur la chance pour faire cache-misère en fonction des audits et des révélations de la presse. Le pire c’est qu’ils risquent de rafler des subventions de l’Etat qui auraient pu aller à des projets qui ont plus d’avenir.


Le 3/4/2020 Benjamin Griveaux est toujours candidat…. Ce qui explique pourquoi la recherche sur une période récente donne toujours des résultats aberrants ou aucuns!

&nbsp;

Ceci dit&nbsp; j’utilise Qwant pour 95% de mes recherches qui portent&nbsp; rarement sur l’actualité (je préfère lire plusieurs journaux en ligne car j’ai le temps). Ceci dit pour une recherche précise (en particulier avec des dates) j’utilise googgle.


Bravo manhack et nextinpact.

Au moins ici on a du journalisme qui va vérifier ses sources.




le rapport d’audit technique que Cédric O, secrétaire d’État au numérique, lui avait demandé d’effectuer, indiquait « une forte dépendance à Microsoft, dont l’Etat aimerait se passer ».





Sortie de son contexte, cette phrase fait rêver. <img data-src=" />