Intelligence artificielle : Facebook lance la description automatique de photos

Avec un gros réseau neuronal

Facebook a activé la création automatique de texte alternatif pour les photos envoyées dans plusieurs pays, à partir d'un outil nourri de million de clichés. Pour le moment, le réseau social a volontairement limité certaines possibilités de son moteur, qui doit encore s'améliorer avec le temps.

Facebook veut décrire toutes les photos qu'il reçoit. Dans un billet mis en ligne hier, le réseau social annonce l'arrivée de la génération automatique de texte alternatif pour les clichés reçus. Le but : améliorer l'accessibilité du service et encourager les interactions par les personnes malvoyantes, qui n'étaient pas vraiment aidées par le service jusqu'ici. Pour obtenir sa description, Facebook s'appuie sur un réseau neuronal dont l'unique but est l'identification des éléments d'une image.

Cette description est donc fournie sous forme de texte alternatif, qui n'apparait qu'au survol ou la sélection d'une image. Il s'agit du texte lu par les lecteurs d'écran lorsque l'utilisateur pointe une image d'une page web. Auparavant, le texte alternatif se limitait au nom de la personne qui a partagé la photo. Désormais, l'utilisateur pourra par exemple entendra « Cette image peut contenir trois personnes, souriantes, en extérieur ».

Pour le moment, le réseau social réserve la fonction aux lecteurs d'écran sur iOS, dans quelques pays anglophones (Australie, Canada, États-Unis, Nouvelle-Zélande et Royaume-Uni). D'autres langues et plateformes doivent suivre « bientôt ».

Amener plus d'interactions avec les photos

« Chaque jour, plus de 2 milliards de photos sont partagées sur Facebook, Instagram, Messenger et WhatsApp » explique le groupe, qui regrette que les personnes malvoyantes aient peu de moyens d'en connaître le contenu. « Si des services existent pour aider les personnes aveugles à comprendre les photos, la plupart s'appuient sur les amis ou des volontaires pour les interpréter » explique l'équipe dans un billet dédié.

Selon une étude commanditée par l'entreprise, les personnes malvoyantes commentent et « aiment » autant les statuts avec photos que celles sans problèmes de vue, même si elles en envoient beaucoup moins. Pour comprendre une photo, les informations écrites sont donc essentielles. La légende fournie par l'utilisateur est souvent l'élément avec le plus de « sens » dans un message avec photo, même si elle ne la décrit pas toujours bien et n'est pas systématiquement présente.

Le but, bien entendu, est d'encourager les interactions des personnes malvoyantes avec ces clichés... Par exemple via des commentaires, en leur évitant de se limiter à des phrases génériques ou inspirées des messages précédents, comme ce serait beaucoup le cas actuellement. Il faut donc rendre les images systématiquement compréhensibles, en étant sûrs du contenu.

Facebook description image

Un réseau neuronal calqué sur le cortex visuel

Dans un troisième billet, technique cette fois, l'équipe dit avoir travaillé pendant 10 mois pour amener le système au stade actuel, y compris pour vérifier qu'il est viable à une échelle aussi large. Cela entre autres via de multiples itérations, bien sûr, mais aussi via des études utilisateurs. L'un des défis affichés est de contrebalancer les envies des utilisateurs, mouvantes, aux contraintes techniques.

« Par exemple, même si les membres se soucient avant tout de qui est présent dans une image et de ce qu'ils font, parfois c'est l'arrière-plan de la photo qui la rend intéressante ou importante » explique Facebook. Il ne suffit donc pas de lister les éléments qui ressortent d'une image, mais comprendre ce qui intéresse la personne qui la regarde.

Concrètement, l'outil de reconnaissance visuelle s'appuie sur un réseau neuronal, dont l'organisation est calquée sur le cortex visuel des animaux. Celui-ci dispose de millions de paramètres et a été entrainé sur des millions d'exemples, sachant que plus de 600 millions de photos sont analysées par Facebook chaque jour (voir notre analyse).

Une centaine de « concepts » inclus dans les textes

Les clichés passent d'abord par des outils conçus pour les collecter et les annoter, avant d'être utilisés « pour entrainer le réseau de manière supervisée ou semi-supervisée ». Les éléments d'une photo sont désignés comme des « concepts » (objets ou scènes). Pour le moment, une centaine de ces concepts sont inclus dans le texte généré, même si le système en reconnaît bien plus dans l'absolu.

Selon Facebook, le réseau peut en apprendre un nouveau en quelques minutes et le découvrir « immédiatement » dans les images suivantes. Nourrie par les millions d'images déposées chaque jour par les utilisateurs, l'intelligence artificielle de Facebook apprend et affine ses algorithmes tous les jours.

Les concepts choisis concernent l'apparence des gens, les véhicules, les sports et la nourriture. Le système est aussi capable de déterminer le nombre de personne, leur catégorie d'âge, leur attitude, de reconnaître des objets et la nature de l'image (texte ou selfie par exemple). Pour l'instant, l'idée est de n'afficher que des données qui ne sont pas ouvertes à interprétation.

Pour cela, Facebook a limité sa liste aux objets avec une précision de détection d'au moins 80 %. Selon le réseau social, il peut retrouver au moins un de ces concepts dans la moitié des photos envoyées sur ses serveurs.

Des phrases « naturelles » mais pas trop

Reste enfin à mettre en forme les données obtenues. Toujours selon l'équipe, les techniques actuelles ne permettent pas encore de construire automatiquement des phrases en langage naturel à partir des concepts reconnus, avec une reconnaissance qui convienne à Facebook. Cela même si l'entreprise dit y travailler. Dans cette première version, les sujets reconnus par le moteur sont simplement listés.

Plusieurs approches ont été envisagées, comme donner une liste simple des « concepts » détectés, par ordre de certitude, en indiquant le pourcentage de confiance. La méthode choisie est censée être plus naturelle : le nombre de personnes, le fait qu'elles sourient ou non, puis la liste des objets par ordre de certitude et, enfin, la scène globale (comme le cadre) et les propriétés de l'image... Précédés d'une indication « L'image peut contenir ».

Cette solution automatique est donc censée éliminer le souci des légendes inexistantes, incomplètes ou trop peu descriptives. Une solution très différente de celle de Twitter, qui a annoncé ajouter une description de 420 caractères aux images. Un moyen d'aider à la compréhension des clichés, mais aussi de préserver la limite de 140 caractère du message tout en permettant aux utilisateurs d'en mettre beaucoup plus.

De son côté, lors de la dernière conférence Build, Microsoft a présenté un système de reconnaissance automatique des images, qui doit aider les déficients visuels dans leur quotidien, par exemple en décrivant ce qui se passe dans une direction, avec l'indication de l'action d'une personne. Une belle démo technologique qui doit encore trouver un moyen d'arriver dans nos quotidiens.

Commentaires (19)

Arystos

Le 06/04/2016 à 06h 57

À quand le retrait pour “racisme” ?

de mémoire Google avait proposé un truc similaire et un bon nombre de personne afro américaines avaient été catalogués comme des singes…

GuillaumeSlash

Le 06/04/2016 à 07h 11

Mouais, c’est une feature intéressante pour les malvoyants, mais ça sera très probablement utilisé pour des publicités mieux ciblés…

Soyez honnête Facebook. ^^’

anonyme_6d3c8325027b08b8beb8eb7f143f3660

Le 06/04/2016 à 07h 33

C’est marrant l’image de la pizza, ça me rappelle la jambe d’un ancien amis après une glissade à moto en short . Est ce que fessebouque aurait détecté ça en pizza ou jambe en charpie.

v1nce

Le 06/04/2016 à 07h 44

need. Une extension pour navigateur qui filtre les images “mon petit poney” (sur deviantart par exemple).

Il me semble que NI n’avait pas fait de news sur le pendant chez Google : deep dream et les videos délirantes que cela permet   

YamaLandia

Le 06/04/2016 à 07h 51

v1nce a écrit :

need. Une extension pour navigateur qui filtre les images “mon petit poney” (sur deviantart par exemple).

Il me semble que NI n’avait pas fait de news sur le pendant chez Google : deep dream et les videos délirantes que cela permet   

http://www.catuhe.com/post/Coding4Fun-and-Extreme-Defense-Grid-Explorer.aspx " /> " />

Le 06/04/2016 à 07h 53

Je te hais.

Exception

Le 06/04/2016 à 08h 38

Poisson d’avril.

tazvld Abonné

Le 06/04/2016 à 08h 45

Arystos a écrit :

À quand le retrait pour “racisme” ?

de mémoire Google avait proposé un truc similaire et un bon nombre de personne afro américaines avaient été catalogués comme des singes…

Ha, ça me dit quelque chose ça en effet…

C’est malheureusement dû à la façon dont l’apprentissage a été fait : il distingue finalement assez de trait pour reconnaître un visage mais il a appris à distinguer un “Homme” d’un “singe” par la composition colorimétrique de la “peau”. N’ayant pas forcément été nourris de suffisamment de photo d’Homme aux teintes de peau foncées durant son apprentissage pour trouver des moyens plus fin pour faire la distinction, un primate à la couleur de peau foncée est donc pour lui “un singe”.

C’était je crois aussi Logitech qui eux avait des difficultés à distinguer un visage lorsque la personne avait une peau particulièrement foncée. Là, je pense que le problème venais plutôt des traitements permettant de reconnaître les différents élément (bouche, nez, yeux) composant un visage qui est parasité par le faible contraste qu’offre une peau très foncé pour facilement faire ressortir la bouche et le nez.

Krogoth

Le 06/04/2016 à 08h 47

Celà dit il a fallu également du temps à “l’homme blanc” pour ne pas prendre les “hommes noirs” pour des singes. L’IA reste quand même plus rapide dans son apprentissage.

WereWindle

Le 06/04/2016 à 09h 00

#10

Krogoth a écrit :

Celà dit il a fallu également du temps à “l’homme blanc” pour ne pas prendre les “hommes noirs” pour des singes. L’IA reste quand même plus rapide dans son apprentissage.

D’autant que si je me rappelle le bel exemple donné par des membres de ce qu’il faut bien appeler, faute d’un meilleur terme, nos représentants, ledit apprentissage est loin d’être acquis " />

MuadJC

Le 06/04/2016 à 09h 51

#11

Description la plus retrouvée par l’IA: “moi faisant un duckface devant mes WC”

coucou_lo_coucou_paloma

Le 06/04/2016 à 09h 59

#12

MuadJC a écrit :

Description la plus retrouvée par l’IA: “moi faisant un duckface devant mes WC”

" />

psn00ps

Le 06/04/2016 à 10h 52

#13

Cette image peut contenir : une personne, souriante, croix, couteau, pistolet.

(cf la 3ème image de démo)

  sifflote

shadowfox

Le 06/04/2016 à 11h 49

#14

et aussi “photo de bébé tout fripé dont personne a rien a battre hormis sa maman” " />

Le 06/04/2016 à 12h 04

#15

shadowfox a écrit :

et aussi “photo de bébé tout fripé dont personne a rien a battre hormis sa maman” " />

ouaaaah tu as fait de leur IA une GLaDOS " />

" />

sentryman

Le 06/04/2016 à 12h 08

#16

Bientôt Facebook va écrire à notre place sur la timeline " />

Le 06/04/2016 à 12h 22

#17

sentryman a écrit :

Bientôt Facebook va écrire à notre place sur la timeline " />

ça enlèverait une partie du fond de commerce de Bescherelle ta mère " />

letsyl

Le 06/04/2016 à 21h 18

#18

C’est basé sur “l’apprentissage profond”, une technique mise au point notamment par Yann Lecun (un chercheur français embauché par Facebook en 2013).

Il a donné un cours au collège de france sur le sujet au début de l’année. C’est accessible en ligne, la leçon inaugurale donne un bon aperçu des possiblités offertes  :http://www.college-de-france.fr/site/yann-lecun/inaugural-lecture-2016-02-04-18h…

malock

Le 07/04/2016 à 13h 46

#19

Aaaah, le deep learning, sans doute le bazar le plus à la mode ces derniers temps.

Vidéo intéressante, merci.

C’est quand même assez dingue ce qui peut être fait avec ça.

Intelligence artificielle : Facebook lance la description automatique de photos

Avec un gros réseau neuronal

Amener plus d'interactions avec les photos

Un réseau neuronal calqué sur le cortex visuel

Une centaine de « concepts » inclus dans les textes

Des phrases « naturelles » mais pas trop

Tiens, en parlant de ça :

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Plus moins bien

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Science artificielle

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

Faille 1460-days

Sommaire de l'article

Introduction

Amener plus d'interactions avec les photos

Un réseau neuronal calqué sur le cortex visuel

Une centaine de « concepts » inclus dans les textes

Des phrases « naturelles » mais pas trop

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

#Flock craque le slip et explose les quotas

Commentaires (19)