Intelligence artificielle : Facebook lance la description automatique de photos

Avec un gros réseau neuronal 19
En bref
image dediée
Crédits : Prykhodov/iStock
Services
Guénaël Pépin

Facebook a activé la création automatique de texte alternatif pour les photos envoyées dans plusieurs pays, à partir d'un outil nourri de million de clichés. Pour le moment, le réseau social a volontairement limité certaines possibilités de son moteur, qui doit encore s'améliorer avec le temps.

Facebook veut décrire toutes les photos qu'il reçoit. Dans un billet mis en ligne hier, le réseau social annonce l'arrivée de la génération automatique de texte alternatif pour les clichés reçus. Le but : améliorer l'accessibilité du service et encourager les interactions par les personnes malvoyantes, qui n'étaient pas vraiment aidées par le service jusqu'ici. Pour obtenir sa description, Facebook s'appuie sur un réseau neuronal dont l'unique but est l'identification des éléments d'une image.

Cette description est donc fournie sous forme de texte alternatif, qui n'apparait qu'au survol ou la sélection d'une image. Il s'agit du texte lu par les lecteurs d'écran lorsque l'utilisateur pointe une image d'une page web. Auparavant, le texte alternatif se limitait au nom de la personne qui a partagé la photo. Désormais, l'utilisateur pourra par exemple entendra « Cette image peut contenir trois personnes, souriantes, en extérieur ».

Pour le moment, le réseau social réserve la fonction aux lecteurs d'écran sur iOS, dans quelques pays anglophones (Australie, Canada, États-Unis, Nouvelle-Zélande et Royaume-Uni). D'autres langues et plateformes doivent suivre « bientôt ».

Amener plus d'interactions avec les photos

« Chaque jour, plus de 2 milliards de photos sont partagées sur Facebook, Instagram, Messenger et WhatsApp » explique le groupe, qui regrette que les personnes malvoyantes aient peu de moyens d'en connaître le contenu. « Si des services existent pour aider les personnes aveugles à comprendre les photos, la plupart s'appuient sur les amis ou des volontaires pour les interpréter » explique l'équipe dans un billet dédié.

Selon une étude commanditée par l'entreprise, les personnes malvoyantes commentent et « aiment » autant les statuts avec photos que celles sans problèmes de vue, même si elles en envoient beaucoup moins. Pour comprendre une photo, les informations écrites sont donc essentielles. La légende fournie par l'utilisateur est souvent l'élément avec le plus de « sens » dans un message avec photo, même si elle ne la décrit pas toujours bien et n'est pas systématiquement présente.

Le but, bien entendu, est d'encourager les interactions des personnes malvoyantes avec ces clichés... Par exemple via des commentaires, en leur évitant de se limiter à des phrases génériques ou inspirées des messages précédents, comme ce serait beaucoup le cas actuellement. Il faut donc rendre les images systématiquement compréhensibles, en étant sûrs du contenu.

Facebook description image

Un réseau neuronal calqué sur le cortex visuel

Dans un troisième billet, technique cette fois, l'équipe dit avoir travaillé pendant 10 mois pour amener le système au stade actuel, y compris pour vérifier qu'il est viable à une échelle aussi large. Cela entre autres via de multiples itérations, bien sûr, mais aussi via des études utilisateurs. L'un des défis affichés est de contrebalancer les envies des utilisateurs, mouvantes, aux contraintes techniques.

« Par exemple, même si les membres se soucient avant tout de qui est présent dans une image et de ce qu'ils font, parfois c'est l'arrière-plan de la photo qui la rend intéressante ou importante » explique Facebook. Il ne suffit donc pas de lister les éléments qui ressortent d'une image, mais comprendre ce qui intéresse la personne qui la regarde.

Concrètement, l'outil de reconnaissance visuelle s'appuie sur un réseau neuronal, dont l'organisation est calquée sur le cortex visuel des animaux. Celui-ci dispose de millions de paramètres et a été entrainé sur des millions d'exemples, sachant que plus de 600 millions de photos sont analysées par Facebook chaque jour (voir notre analyse).

Une centaine de « concepts » inclus dans les textes 

Les clichés passent d'abord par des outils conçus pour les collecter et les annoter, avant d'être utilisés « pour entrainer le réseau de manière supervisée ou semi-supervisée ». Les éléments d'une photo sont désignés comme des « concepts » (objets ou scènes). Pour le moment, une centaine de ces concepts sont inclus dans le texte généré, même si le système en reconnaît bien plus dans l'absolu.

Selon Facebook, le réseau peut en apprendre un nouveau en quelques minutes et le découvrir « immédiatement » dans les images suivantes. Nourrie par les millions d'images déposées chaque jour par les utilisateurs, l'intelligence artificielle de Facebook apprend et affine ses algorithmes tous les jours.

Les concepts choisis concernent l'apparence des gens, les véhicules, les sports et la nourriture. Le système est aussi capable de déterminer le nombre de personne, leur catégorie d'âge, leur attitude, de reconnaître des objets et la nature de l'image (texte ou selfie par exemple). Pour l'instant, l'idée est de n'afficher que des données qui ne sont pas ouvertes à interprétation.

Pour cela, Facebook a limité sa liste aux objets avec une précision de détection d'au moins 80 %. Selon le réseau social, il peut retrouver au moins un de ces concepts dans la moitié des photos envoyées sur ses serveurs. 

Des phrases « naturelles » mais pas trop

Reste enfin à mettre en forme les données obtenues. Toujours selon l'équipe, les techniques actuelles ne permettent pas encore de construire automatiquement des phrases en langage naturel à partir des concepts reconnus, avec une reconnaissance qui convienne à Facebook. Cela même si l'entreprise dit y travailler. Dans cette première version, les sujets reconnus par le moteur sont simplement listés.

Plusieurs approches ont été envisagées, comme donner une liste simple des « concepts » détectés, par ordre de certitude, en indiquant le pourcentage de confiance. La méthode choisie est censée être plus naturelle : le nombre de personnes, le fait qu'elles sourient ou non, puis la liste des objets par ordre de certitude et, enfin, la scène globale (comme le cadre) et les propriétés de l'image... Précédés d'une indication « L'image peut contenir ».

Cette solution automatique est donc censée éliminer le souci des légendes inexistantes, incomplètes ou trop peu descriptives. Une solution très différente de celle de Twitter, qui a annoncé ajouter une description de 420 caractères aux images. Un moyen d'aider à la compréhension des clichés, mais aussi de préserver la limite de 140 caractère du message tout en permettant aux utilisateurs d'en mettre beaucoup plus.

De son côté, lors de la dernière conférence Build, Microsoft a présenté un système de reconnaissance automatique des images, qui doit aider les déficients visuels dans leur quotidien, par exemple en décrivant ce qui se passe dans une direction, avec l'indication de l'action d'une personne. Une belle démo technologique qui doit encore trouver un moyen d'arriver dans nos quotidiens.


chargement
Chargement des commentaires...