Qwant et Inria nous parlent de leur laboratoire commun, qui doit profiter à tous

Qwant et Inria nous parlent de leur laboratoire commun, qui doit profiter à tous

Pas encore de recherche qwantique

Avatar de l'auteur
Guénaël Pépin

Publié dans

Internet

14/11/2017 7 minutes
17

Qwant et Inria nous parlent de leur laboratoire commun, qui doit profiter à tous

Le moteur de recherche français s'associe à Inria pour lever des « verrous scientifiques » sur un large panel de services. De la recherche aux objets connectés, en passant par la cartographie, les deux entités chercheront des méthodes respectueuses de la vie privée, dont les premiers fruits bénéficieront à Qwant.

Il y a quelques jours, le moteur de recherche Qwant et l'Institut national de recherche en informatique et en automatique (Inria) ont signé un partenariat de quatre ans, avec pour cadre le « smart search and privacy ».

Côté Inria, le projet est mené par Fabien Gandon, le directeur de recherche de l'équipe WIMMICS (web sémantique). Côté Qwant, son directeur scientifique Sylvain Peyronnet gère les travaux. Le moteur fournit un financement de cinq millions d'euros sur quatre ans, à raison de 1,25 million d'euros par an. Un « investissement significatif » pour la jeune pousse, qui doit à la fois profiter à son produit et contribuer à la recherche sur plusieurs domaines liés à la recherche web.

Une partie des résultats est destinée à être publiée en open source, une autre restera (au moins un temps) réservée à l'entreprise. Chaque projet disposera de son contrat propre, au sein de ce cadre.

« Nous nous sommes rapprochés en premier lieu avec le centre de Sophia-Antipolis et l'équipe WIMMICS, avec laquelle nous échangeons depuis 2015 et avons par exemple déposé une proposition conjointe pour les Grands Défis du numérique » se souvient, dans un e-mail, Sylvain Peyronnet de Qwant. Ce n'est pas leur première collaboration : les deux entités ont déjà coopéré sur la conception automatique de quizz pour enfants, fausses réponses comprises.

Fabien Gandon d'Inria veut lever des « verrous scientifiques  et techniques » en travaillant avec Qwant, habitué aux projets censés profiter à l'écosystème français, comme son soutien à B0unty Factory (dirigé par son RSSI) ou la messagerie CaliOpen. Avec Inria, plusieurs équipes sont prévues, pour de premiers résultats publiables sous trois mois.

Améliorer le parcours des sites par les robots

En mai, une journée de rencontre était organisée entre Qwant et différentes équipes de l'institut, pour « donner à Qwant une vision complète de ce qui se fait à Inria » affirme Fabien Gandon. « Après le contact initial nous avons formé un premier groupe de quatre équipes du centre Inria de Sophia Antipolis » poursuit-il.

« Le projet et les quatre équipes Inria qui en sont partenaires se focalisent sur l’amélioration du crawling (moissonnage des contenus du web), de l’indexation et du tri des résultats (comme les calculs de mesures sur la structure et les contenus du web), des critères de recherche (comme l'émotion exprimée dans un contenu), et des solutions pour assurer la sécurité et améliorer le respect de la vie privée (comme la détection de traceurs ou de failles) » détaille le directeur de recherche.

Le laboratoire commun permet d'aller plus loin. L'ensemble des 180 équipes d'Inria, dont celle centrée sur la vie privée, Privatics, pourra être amené à collaborer avec Qwant. Privatics est entre autres responsable de travaux avec la CNIL, par exemple sur le pistage des smartphones dans les magasins.

Côté Qwant, plusieurs employés sont affectés à temps plein au laboratoire, des « profils essentiellement scientifiques ». La collaboration pourra mobiliser d'autres salariés, en R&D et design produit.

Le premier projet, « quasiment signé » selon Inria, concerne l'équipe Network Engineering and Operations (NEO) sur le calcul asynchrone dans des grands graphes. Concrètement, il s'agit d'optimiser le parcours des sites web et le choix des bots dans les liens à indexer. Il doit mobiliser trois personnes côté Inria et deux chez Qwant.

Un post-doctorant et un ingénieur doivent être embauchés. Pour chaque projet, des spécialistes peuvent être recrutés « pour la durée de l'équipe, jusqu'à trois ans », selon Gandon. 

Des équipes et un pilotage à mettre en place

Les deux entités ont fixé cinq axes de recherche :

  • Le moissonnage, l'indexation et la recherche web
  • La plateforme d'exécution, le « privacy by design » et la sécurité
  • La cartographie (géographie, cartes, GPS, navigation, trafic...)
  • Les interactions augmentées, objets connectés, assistants (en ligne ou personnels)
  • L'éducation et les utilisateurs de Qwant Junior

Sylvain Peyronnet de Qwant évoque, le calcul haute performance (distribué ou rapide sur GPU), les interactions avec l'utilisateur ainsi que le tri des textes en fonction de la thématique, de l'intention ou du sentiment qu'il dégage. Qwant pense « prématuré » de donner le détail des équipes qui seront mises sur pied.

Sur le fond, il est question de « comprendre quand des sites cherchent à jouer sur les émotions ou à orienter les opinions pour manipuler nos utilisateurs. C’est donc très différent, voire opposé, à ce que font d’autres moteurs de recherche et réseaux sociaux qui exploitent les données de leurs utilisateurs pour exploiter leurs propres émotions ». Les contenus sont destinés à être décortiqués, non les données des utilisateurs, assure encore le moteur français.

Les équipes devront se multiplier pour parcourir l'ensemble de ces sujets. L'institution propose quelques idées originales, par exemple de permettre la recherche dans le code source de Software Heritage via Qwant. Pour mémoire, il est destiné à cataloguer et archiver tout le code source qu'Inria peut récupérer.

Inria et Qwant sont en contact toutes les semaines, pour revoir les propositions de sujets. Un comité de pilotage du laboratoire, de six personnes, doit se réunir au moins deux fois par an, en plus de discussions dans une liste commune. Un nouveau comité de pilotage est associé à chaque nouvelle équipe. 

« Un laboratoire commun est un contrat cadre, dans lequel on instancie les équipes communes. Les conditions peuvent varier de l'une à l'autre » nous déclare le directeur de recherche.

De premiers résultats dans les prochains mois

Les premières retombées de l'équipe NEO doivent être rapides pour le moteur de recherche. « La première équipe en création, avec Konstantin Avrachenkov de l'équipe NEO, qui a déjà des années de travail sur le parcours de graphe. Dans quelques mois, il y aura des résultats de recherche passés à transférer vers Qwant » prévoit Fabien Gandon.

Des résultats scientifiques et publications sont donc prévus dans les trois mois, quand les retours pour les utilisateurs sont attendus dans les six mois. Concernant l'analyse d'images et de vidéos, Sylvain Peyronnet de Qwant compte obtenir des résultats sur la protection des jeunes via sa version Junior.

« Nous souhaitons également renforcer notre capacité à rechercher dans les médias non textuels en analysant directement ce qui est visible à l'écran » avance le directeur scientifique. « Aucun des résultats ne pourra être tenu secret » assure Inria. Selon l'équipe, ils pourront être publiés sous différentes formes, en logiciel libre ou en brevet, par exemple. Les services de transfert et de développement d'Inria pourront aussi importer des « connaissances » dans les logiciels de l'institution.

Pourtant, tout ne sera pas forcément public dans un premier temps. « De la même façon qu'on connaît le principe général d'autres moteurs de recherche, on connaît beaucoup moins les paramétrages et les heuristiques exacts. Ils le considèrent comme des avantages concurrentiels. Si à un moment notre travail vient à améliorer certaines heuristiques de Qwant, il pourra être intéressant pour eux (au moins un certain temps) de ne pas les divulguer » justifie Fabien Gandon.

Dans tous les cas, Qwant se lance avec un partenaire connu et habitué aux partenariats industriels. Les premiers changements concrets pour les utilisateurs concerneraient donc la qualité des résultats, un de ses principaux retards sur les géants mondiaux, Google en tête.

Écrit par Guénaël Pépin

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Améliorer le parcours des sites par les robots

Des équipes et un pilotage à mettre en place

De premiers résultats dans les prochains mois

Fermer

Commentaires (17)


Vu que l’un est privé (Qwant) et l’autre public (Inria), c’est en quelques sorte un PPP du coup ?

Sauf erreur de ma part ? <img data-src=" />


Des retours sur Qwant ? ils respectent vraiment la vie privée ? ils sont toujours dépendant de Bing ?



Désolé j’ai pas trop suivi l’actualité mais à l’époque c’était pas fameux <img data-src=" />


En tout cas ya aucun tracker sur qwant. Malheureusement je commence à ne plus l’aimer comme avant, ils sont en train de dupliquer les schémas des géants du net: apparition d’annonces sponsorisées, publicité régulière dès la page d’accueil…. ce genre de truc dont je n’ai rien à faire et qui n’ont pas d’utilité sur un moteur de recherche. Dommage :/ bon je continue à l’utiliser mais s’ils continuent sur cette voie ça sera sans moi au final








Pretexta a écrit :



Des retours sur Qwant ? ils respectent vraiment la vie privée ? ils sont toujours dépendant de Bing ?



Désolé j’ai pas trop suivi l’actualité mais à l’époque c’était pas fameux <img data-src=" />





Ils ont leur propre algo d’indexation.









Nozalys a écrit :



En tout cas ya aucun tracker sur qwant. Malheureusement je commence à ne plus l’aimer comme avant, ils sont en train de dupliquer les schémas des géants du net: apparition d’annonces sponsorisées, publicité régulière dès la page d’accueil…. ce genre de truc dont je n’ai rien à faire et qui n’ont pas d’utilité sur un moteur de recherche. Dommage :/ bon je continue à l’utiliser mais s’ils continuent sur cette voie ça sera sans moi au final





Et comment tu proposes qu’ils soient rentables sans ce genre de choses ?&nbsp;



Qwant n’est pas parfait, certes, mais il faut le prendre comme ce qu’il est : une alternative intéressante pour contrer un google devenu omnipotent.

Pour le reste, je déteste que la barre espace ne fonctionne pas sous Qwant pour faire défiler la page. A ma connaissance, c’est le seul site de la toile à faire cette erreur ergonomique majeure.


+1. De plus j’avais souvent des résultats n’ayant aucun rapport avec ma recherche.

Je suis passé à Tonton Roger : pas de pub et des résultats plus pertinents (puisqu’issus de Google).


C’est une très bonne chose ce partenariat Qwant/Inria et le meilleur moyen d’avancer rapidement sur des pistes d’amélioration.

Le partenariat permet d’aller plus vite que de chercher à créer des équipes internes en recrutant.



Sur un autre axe, il me tarde de voir Qwant Map arriver.








Schpountz42 a écrit :



Et comment tu proposes qu’ils soient rentables sans ce genre de choses ?





Je ne propose pas, ce n’est pas mon métier. En tant qu’initiative Franco-Européenne, on pourrait espérer que les états y mettent un peu de sous.. Après tout, on nous rabâche sans cesse que “il en va de la souveraineté [nationale/européenne]”…







Jarodd a écrit :



+1. De plus j’avais souvent des résultats n’ayant aucun rapport avec ma recherche.

Je suis passé à Tonton Roger : pas de pub et des résultats plus pertinents (puisqu’issus de Google).





De mon côté je n’ai plus de problème de pertinence des résultats avec qwant. Je ne connaissais pas tonton, mais un bref tour dessus et ça ne me convainc pas: trop de bordel sur la page d’accueil et page de résultats pas assez lisible à mon gout.









Jarodd a écrit :



+1. De plus j’avais souvent des résultats n’ayant aucun rapport avec ma recherche.

Je suis passé à Tonton Roger : pas de pub et des résultats plus pertinents (puisqu’issus de Google).





Il a l’air sympa ce TontonRoger.org

C’est donc un métamoteur : ça tombe bien, ça fait quelque temps que j’en cherchais un. Alors que c’était en vogue il y a quelques années, ils ont étrangement disparu pour ne laisser place qu’à un gros qui impose sa loi.



Par contre, j’ai l’impression qu’il n’utilise que les 3 moteurs de recherche les plus connus (google yahoo bing), il n’y a pas qwant, duckduckgo, exalead ou encore Lycos (oui, il existe encore).

C’est un peu dommage cette limitation

&nbsp;



Tu peux choisir tse moteurs dans les préférences (la roue crantée à droite) puis onglet “moteurs”.



Le souci c’est que c’est enregistré dans un cookie, donc au bout de x jours il expire et il faut refaire la conf. J’ai prévu d’ouvrir un ticket chez Framasoft, mais je n’ai pas encore eu le temps de le faire.

Qwant (je crois) permet d’enregistrer ses propres paramètres dans une url unique, je trouve que c’est un bon système.


Les égouts et les couleuvres…



Le but de ces initiatives de Framasoft c’est de tester le service, et si on est conquis, de se faire sa propre instance, et là on peut changer l’apparence et tout mettre à son goût.


Oui c’est vrai qu’il y a aussi des possibilités de modifier l’apparence via des outils comme Stylish par exemple, mais je commence à être las de passer (perdre?) du temps à mettre au point des scripts dans ce genre :/


&gt;ls respectent vraiment la vie privée

Pense tu que une entreprise, qui doit bien trouver de l’argent quelque par (c’est pas comme si qwant etait google a la sauce française (faite gaffe avec ce lien le site web utilise des canvas pour fingerprinter le navigateur), avec un services/plateforme centraliser respecte la vie privée ?

Juridiquement oui ils peuvent théoriquement respecter la vie privée.

Si c’est comme au état unis il non pas le droit de revendre les donnée mais par contre les metadonner pas de problème ils peuvent les revendre ce qui rend techniquement caduque leur propos sur la protection de la vie privée.

Je t’invite a regarder ces conférences sur le sujet:



The surreptitious assault on privacy, security, and freedom

slides



Corporate surveillance, digital tracking, big data & privacy

Datamining compagnie middle 2016



Data collection, psychographic profiling, and their impact on politics



The Power of Big Data and Psychographics





Si vous voulez un ou des moteur de recherche je vous inviter a regarder le meta moteur de recherche libre SEARX et surtout d’installer un serveur et de le référencer si vous en êtes techniquement capable.

Je conseille aussi d’activer le script YACY pour améliorer ses recherche avec les divers meta recherche.

N’oublier d’aller fouiller dans les préférence et faite divers combinaison de moteur de recherche les résultat sont correcte.

Dans le lot vous remarquerez que la quadrature (notamment aussi leur lien TOR) a aussi monter un serveur.


&nbsp; Justepour préciser tontonroger.org c’est searx va voir ici

framabee.org - Issuer : Let’s Encrypt Verification (also available as trouvons.org and tontonroger.org, same issuer)”


Merci à tous pour vos réponses,



Du coup je vais plutôt tester Searx via Framabee.org au lieu de startpage !



Le coté méta-moteur me parait plus pertinent&nbsp; <img data-src=" />


Bonjour. Je travaille chez Qwant. Plus exactement je suis en charge de l’éthique et en particulier de la protection des données personnelles. C’est très clair, Qwant ne collecte pas de données, et ne conserve aucune métadonnée liées aux recherches. La CNIL nous contrôle. C’est bien mieux que nous faire confiance.



Nous ne vendons rien, si ce n’est la possibilité pour des annonceurs d’afficher leurs annonces correspondant à des mots clés saisis. On se fiche de savoir si la personne qui saisit ces mots clés est une femme, un musulman, un enseignant, un dépressif… on ne collecte aucune info qui permettrait de le savoir (notamment par vos recherches successives), et donc on n’en transmet aucune aux annonceurs.

&nbsp;

Sur les métamoteurs, c’est certainement pratique d’en utiliser, mais vu que ça se base toujours sur les mêmes moteurs au final par derrière, ça n’a pas grand intérêt en terme de souveraineté technologique dont l’Europe a besoin, et de diversité des résultats qui permettent de favoriser la stabilité de tout un écosystème. Le pari de Qwant c’est de créer le premier vrai moteur en Europe, qui a son propre index, ses propres algos, ses capacités de calcul… et garantit le respect plein et entier des droits fondamentaux des utilisateurs, à commencer par la vie privée.


&gt;sous entendue que c’est qwant

Ok je mord a l’hameçon.

Je vous remercie de ce message a une autre époque ou j’étais jeune et naïfs je n’aurais pas contester ce genre de propos, aujourd’hui c’est une autre chose.

&nbsp;

Si vos propos sur qwant sont véridict vous ne verrais aucun inconvénient qu’une personne utilise un meta moteur comme searx (qui fait office de proxy) pour les requête faite a qwant.



“Sur les métamoteurs, c’est certainement pratique d’en utiliser, mais vu

que ça se base toujours sur les mêmes moteurs au final par derrière”

Les mêmes moteur ?

Vous êtes quand même au courant que searx peut faire des requête a qwant ? ou vous insulter vous même votre propre entreprise ?

Et ça a quand même un intérêt pour l’utilisateur puisqu’il proxies ses requêtes grâce a searx.



&nbsp;

“ça

n’a pas grand intérêt en terme de souveraineté technologique dont

l’Europe a besoin”

La souveraineté de l’Europe ?

Et la souveraineté des utilisateurs sur eux même ?

&nbsp;

&nbsp;

“Le pari de Qwant c’est de créer le premier vrai moteur en Europe, qui a

son propre index, ses propres algos, ses capacités de calcul… et

garantit le respect plein et entier des droits fondamentaux des

utilisateurs, à commencer par la vie privée.





D’après ce que j’interprète vous voulez:

-Le monopole européen ou en tout cas assez de marcher pour grossir et devenir majoritaire.

-Votre propre base de donnée/algo que vous seule détenez (centraliser) et qui n’est pas accessible au public.

-Et évidement vous respecter la vie privée des utilisateurs.

Tout comme google en somme.

Vous nous demander de faire confiance en des entités qui sont pour nous techniquement impossible a vérifier, et c’est entité dans lequel des informations, nos informations circule, regarder ou cela a mener le monde technologique, le web a tellement de standard pousser/forcer par des dizaines d’entité qu’un navigateur est, aussi, voir plus gros qu’un système d’exploitation (en plus d’avoir des DRM standardiser maintenant) et si ce n’était que cela.



Mesdames et Monsieur lecteur de commentaire je vous prierai de ne pas vous montrer naïf et d’avoir une réflexion critique envers qwant (ou tout autre services), ils ont cert une communication et des fonds impressionnant mais les moyens technique qu’ils mettent en place font d’eux une copie de google et n’améliorera pas nos vie numérique, qui sont déjà constamment malmener par divers entités.