Wikipedia à l'heure du web sémantique

On y arrive doucement 69
Le web sémantique (ou web 3.0 selon la terminologie qui fait le buzz) permet de rendre les données éparpillées sur Internet compréhensible par les ordinateurs. Par exemple, une série de chiffres comprise uniquement par des humains peut tout d'un coup devenir une date associée à un évènement historique, exploitable par des machines.

Wikipedia logoLa plus grande source potentielle d'informations sémantiques est évidemment Wikipedia, l'encyclopédie collaborative en ligne. Justement, fin juin 2010 se tenait la Semantic Technology Conference à San Francisco. Le directeur adjoint de la Fondation Wikimedia, Erik Möller, et le développeur Trevor Parscal, spécialisé dans les interfaces utilisateurs, y ont présenté les premiers efforts de la Fondation pour intégrer une structure sémantique à l'encyclopédie.

Pour commencer, Möller, cité par le Technology Review, explique que « les informations sémantiques existent déjà dans Wikipedia, et les gens construisent à partir de ça. Malheureusement [la Fondation] n'aide pas vraiment, et ils doivent du coup utiliser des processus compliqués pour y arriver ». Deux exemples d'applications arrivant à extraire (difficilement) des informations sémantiques de l'encyclopédie sont DBpedia et Freebase. Freebase utilise d'autres sources d'informations en plus de Wikipedia, et est utilisée par le moteur de recherche en langage naturel PowerSet, racheté par Microsoft en 2008 et intégré à Bing depuis.

Ce que les deux représentants de la fondation voudraient mettre en place, ce sont des interfaces utilisateurs facilitant l'intégration et l'utilisation de données sémantiques. Par exemple les tableaux, qui sont pour l'instant rentrés à la main par un humain dans chaque article où ils sont nécessaires, pourraient être générés et mis à jour automatiquement. Par exemple, si le dernier chiffre du PIB de la France était publié par l'INSEE, un système sémantique pourrait le récupérer et l'intégrer à tous les tableaux qui citent les anciens chiffres.

Le nombre d'applications serait très important, à la fois pour Wikipedia que pour le reste du net, qui pourrait puiser dans ces bases de données phénoménales pour améliorer la recherche sur Internet, faciliter l'organisation et le tri de ces informations, et permettre à terme la généralisation du langage naturel dans les interfaces utilisateurs/sites internet.