Qwant et Inria nous parlent de leur laboratoire commun, qui doit profiter à tous

Pas encore de recherche qwantique 17
Accès libre
image dediée
Services
Guénaël Pépin

Le moteur de recherche français s'associe à Inria pour lever des « verrous scientifiques » sur un large panel de services. De la recherche aux objets connectés, en passant par la cartographie, les deux entités chercheront des méthodes respectueuses de la vie privée, dont les premiers fruits bénéficieront à Qwant.

Il y a quelques jours, le moteur de recherche Qwant et l'Institut national de recherche en informatique et en automatique (Inria) ont signé un partenariat de quatre ans, avec pour cadre le « smart search and privacy ».

Côté Inria, le projet est mené par Fabien Gandon, le directeur de recherche de l'équipe WIMMICS (web sémantique). Côté Qwant, son directeur scientifique Sylvain Peyronnet gère les travaux. Le moteur fournit un financement de cinq millions d'euros sur quatre ans, à raison de 1,25 million d'euros par an. Un « investissement significatif » pour la jeune pousse, qui doit à la fois profiter à son produit et contribuer à la recherche sur plusieurs domaines liés à la recherche web.

Une partie des résultats est destinée à être publiée en open source, une autre restera (au moins un temps) réservée à l'entreprise. Chaque projet disposera de son contrat propre, au sein de ce cadre.

« Nous nous sommes rapprochés en premier lieu avec le centre de Sophia-Antipolis et l'équipe WIMMICS, avec laquelle nous échangeons depuis 2015 et avons par exemple déposé une proposition conjointe pour les Grands Défis du numérique » se souvient, dans un e-mail, Sylvain Peyronnet de Qwant. Ce n'est pas leur première collaboration : les deux entités ont déjà coopéré sur la conception automatique de quizz pour enfants, fausses réponses comprises.

Fabien Gandon d'Inria veut lever des « verrous scientifiques  et techniques » en travaillant avec Qwant, habitué aux projets censés profiter à l'écosystème français, comme son soutien à B0unty Factory (dirigé par son RSSI) ou la messagerie CaliOpen. Avec Inria, plusieurs équipes sont prévues, pour de premiers résultats publiables sous trois mois.

Améliorer le parcours des sites par les robots

En mai, une journée de rencontre était organisée entre Qwant et différentes équipes de l'institut, pour « donner à Qwant une vision complète de ce qui se fait à Inria » affirme Fabien Gandon. « Après le contact initial nous avons formé un premier groupe de quatre équipes du centre Inria de Sophia Antipolis » poursuit-il.

« Le projet et les quatre équipes Inria qui en sont partenaires se focalisent sur l’amélioration du crawling (moissonnage des contenus du web), de l’indexation et du tri des résultats (comme les calculs de mesures sur la structure et les contenus du web), des critères de recherche (comme l'émotion exprimée dans un contenu), et des solutions pour assurer la sécurité et améliorer le respect de la vie privée (comme la détection de traceurs ou de failles) » détaille le directeur de recherche.

Le laboratoire commun permet d'aller plus loin. L'ensemble des 180 équipes d'Inria, dont celle centrée sur la vie privée, Privatics, pourra être amené à collaborer avec Qwant. Privatics est entre autres responsable de travaux avec la CNIL, par exemple sur le pistage des smartphones dans les magasins.

Côté Qwant, plusieurs employés sont affectés à temps plein au laboratoire, des « profils essentiellement scientifiques ». La collaboration pourra mobiliser d'autres salariés, en R&D et design produit.

Le premier projet, « quasiment signé » selon Inria, concerne l'équipe Network Engineering and Operations (NEO) sur le calcul asynchrone dans des grands graphes. Concrètement, il s'agit d'optimiser le parcours des sites web et le choix des bots dans les liens à indexer. Il doit mobiliser trois personnes côté Inria et deux chez Qwant.

Un post-doctorant et un ingénieur doivent être embauchés. Pour chaque projet, des spécialistes peuvent être recrutés « pour la durée de l'équipe, jusqu'à trois ans », selon Gandon. 

Des équipes et un pilotage à mettre en place

Les deux entités ont fixé cinq axes de recherche :

  • Le moissonnage, l'indexation et la recherche web
  • La plateforme d'exécution, le « privacy by design » et la sécurité
  • La cartographie (géographie, cartes, GPS, navigation, trafic...)
  • Les interactions augmentées, objets connectés, assistants (en ligne ou personnels)
  • L'éducation et les utilisateurs de Qwant Junior

Sylvain Peyronnet de Qwant évoque, le calcul haute performance (distribué ou rapide sur GPU), les interactions avec l'utilisateur ainsi que le tri des textes en fonction de la thématique, de l'intention ou du sentiment qu'il dégage. Qwant pense « prématuré » de donner le détail des équipes qui seront mises sur pied.

Sur le fond, il est question de « comprendre quand des sites cherchent à jouer sur les émotions ou à orienter les opinions pour manipuler nos utilisateurs. C’est donc très différent, voire opposé, à ce que font d’autres moteurs de recherche et réseaux sociaux qui exploitent les données de leurs utilisateurs pour exploiter leurs propres émotions ». Les contenus sont destinés à être décortiqués, non les données des utilisateurs, assure encore le moteur français.

Les équipes devront se multiplier pour parcourir l'ensemble de ces sujets. L'institution propose quelques idées originales, par exemple de permettre la recherche dans le code source de Software Heritage via Qwant. Pour mémoire, il est destiné à cataloguer et archiver tout le code source qu'Inria peut récupérer.

Inria et Qwant sont en contact toutes les semaines, pour revoir les propositions de sujets. Un comité de pilotage du laboratoire, de six personnes, doit se réunir au moins deux fois par an, en plus de discussions dans une liste commune. Un nouveau comité de pilotage est associé à chaque nouvelle équipe. 

« Un laboratoire commun est un contrat cadre, dans lequel on instancie les équipes communes. Les conditions peuvent varier de l'une à l'autre » nous déclare le directeur de recherche.

De premiers résultats dans les prochains mois

Les premières retombées de l'équipe NEO doivent être rapides pour le moteur de recherche. « La première équipe en création, avec Konstantin Avrachenkov de l'équipe NEO, qui a déjà des années de travail sur le parcours de graphe. Dans quelques mois, il y aura des résultats de recherche passés à transférer vers Qwant » prévoit Fabien Gandon.

Des résultats scientifiques et publications sont donc prévus dans les trois mois, quand les retours pour les utilisateurs sont attendus dans les six mois. Concernant l'analyse d'images et de vidéos, Sylvain Peyronnet de Qwant compte obtenir des résultats sur la protection des jeunes via sa version Junior.

« Nous souhaitons également renforcer notre capacité à rechercher dans les médias non textuels en analysant directement ce qui est visible à l'écran » avance le directeur scientifique. « Aucun des résultats ne pourra être tenu secret » assure Inria. Selon l'équipe, ils pourront être publiés sous différentes formes, en logiciel libre ou en brevet, par exemple. Les services de transfert et de développement d'Inria pourront aussi importer des « connaissances » dans les logiciels de l'institution.

Pourtant, tout ne sera pas forcément public dans un premier temps. « De la même façon qu'on connaît le principe général d'autres moteurs de recherche, on connaît beaucoup moins les paramétrages et les heuristiques exacts. Ils le considèrent comme des avantages concurrentiels. Si à un moment notre travail vient à améliorer certaines heuristiques de Qwant, il pourra être intéressant pour eux (au moins un certain temps) de ne pas les divulguer » justifie Fabien Gandon.

Dans tous les cas, Qwant se lance avec un partenaire connu et habitué aux partenariats industriels. Les premiers changements concrets pour les utilisateurs concerneraient donc la qualité des résultats, un de ses principaux retards sur les géants mondiaux, Google en tête.


chargement
Chargement des commentaires...