Vous n'avez pas encore de notification

Page d'accueil

Options d'affichage

Abonné

Actualités

Abonné

Des thèmes sont disponibles :

Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !

Intelligence artificielle : Facebook lance la description automatique de photos

Avec un gros réseau neuronal
Internet 5 min
Intelligence artificielle : Facebook lance la description automatique de photos
Crédits : Prykhodov/iStock

Facebook a activé la création automatique de texte alternatif pour les photos envoyées dans plusieurs pays, à partir d'un outil nourri de million de clichés. Pour le moment, le réseau social a volontairement limité certaines possibilités de son moteur, qui doit encore s'améliorer avec le temps.

Facebook veut décrire toutes les photos qu'il reçoit. Dans un billet mis en ligne hier, le réseau social annonce l'arrivée de la génération automatique de texte alternatif pour les clichés reçus. Le but : améliorer l'accessibilité du service et encourager les interactions par les personnes malvoyantes, qui n'étaient pas vraiment aidées par le service jusqu'ici. Pour obtenir sa description, Facebook s'appuie sur un réseau neuronal dont l'unique but est l'identification des éléments d'une image.

Cette description est donc fournie sous forme de texte alternatif, qui n'apparait qu'au survol ou la sélection d'une image. Il s'agit du texte lu par les lecteurs d'écran lorsque l'utilisateur pointe une image d'une page web. Auparavant, le texte alternatif se limitait au nom de la personne qui a partagé la photo. Désormais, l'utilisateur pourra par exemple entendra « Cette image peut contenir trois personnes, souriantes, en extérieur ».

Pour le moment, le réseau social réserve la fonction aux lecteurs d'écran sur iOS, dans quelques pays anglophones (Australie, Canada, États-Unis, Nouvelle-Zélande et Royaume-Uni). D'autres langues et plateformes doivent suivre « bientôt ».

Amener plus d'interactions avec les photos

« Chaque jour, plus de 2 milliards de photos sont partagées sur Facebook, Instagram, Messenger et WhatsApp » explique le groupe, qui regrette que les personnes malvoyantes aient peu de moyens d'en connaître le contenu. « Si des services existent pour aider les personnes aveugles à comprendre les photos, la plupart s'appuient sur les amis ou des volontaires pour les interpréter » explique l'équipe dans un billet dédié.

Selon une étude commanditée par l'entreprise, les personnes malvoyantes commentent et « aiment » autant les statuts avec photos que celles sans problèmes de vue, même si elles en envoient beaucoup moins. Pour comprendre une photo, les informations écrites sont donc essentielles. La légende fournie par l'utilisateur est souvent l'élément avec le plus de « sens » dans un message avec photo, même si elle ne la décrit pas toujours bien et n'est pas systématiquement présente.

Le but, bien entendu, est d'encourager les interactions des personnes malvoyantes avec ces clichés... Par exemple via des commentaires, en leur évitant de se limiter à des phrases génériques ou inspirées des messages précédents, comme ce serait beaucoup le cas actuellement. Il faut donc rendre les images systématiquement compréhensibles, en étant sûrs du contenu.

Facebook description image

Un réseau neuronal calqué sur le cortex visuel

Dans un troisième billet, technique cette fois, l'équipe dit avoir travaillé pendant 10 mois pour amener le système au stade actuel, y compris pour vérifier qu'il est viable à une échelle aussi large. Cela entre autres via de multiples itérations, bien sûr, mais aussi via des études utilisateurs. L'un des défis affichés est de contrebalancer les envies des utilisateurs, mouvantes, aux contraintes techniques.

« Par exemple, même si les membres se soucient avant tout de qui est présent dans une image et de ce qu'ils font, parfois c'est l'arrière-plan de la photo qui la rend intéressante ou importante » explique Facebook. Il ne suffit donc pas de lister les éléments qui ressortent d'une image, mais comprendre ce qui intéresse la personne qui la regarde.

Concrètement, l'outil de reconnaissance visuelle s'appuie sur un réseau neuronal, dont l'organisation est calquée sur le cortex visuel des animaux. Celui-ci dispose de millions de paramètres et a été entrainé sur des millions d'exemples, sachant que plus de 600 millions de photos sont analysées par Facebook chaque jour (voir notre analyse).

Une centaine de « concepts » inclus dans les textes 

Les clichés passent d'abord par des outils conçus pour les collecter et les annoter, avant d'être utilisés « pour entrainer le réseau de manière supervisée ou semi-supervisée ». Les éléments d'une photo sont désignés comme des « concepts » (objets ou scènes). Pour le moment, une centaine de ces concepts sont inclus dans le texte généré, même si le système en reconnaît bien plus dans l'absolu.

Selon Facebook, le réseau peut en apprendre un nouveau en quelques minutes et le découvrir « immédiatement » dans les images suivantes. Nourrie par les millions d'images déposées chaque jour par les utilisateurs, l'intelligence artificielle de Facebook apprend et affine ses algorithmes tous les jours.

Les concepts choisis concernent l'apparence des gens, les véhicules, les sports et la nourriture. Le système est aussi capable de déterminer le nombre de personne, leur catégorie d'âge, leur attitude, de reconnaître des objets et la nature de l'image (texte ou selfie par exemple). Pour l'instant, l'idée est de n'afficher que des données qui ne sont pas ouvertes à interprétation.

Pour cela, Facebook a limité sa liste aux objets avec une précision de détection d'au moins 80 %. Selon le réseau social, il peut retrouver au moins un de ces concepts dans la moitié des photos envoyées sur ses serveurs. 

Des phrases « naturelles » mais pas trop

Reste enfin à mettre en forme les données obtenues. Toujours selon l'équipe, les techniques actuelles ne permettent pas encore de construire automatiquement des phrases en langage naturel à partir des concepts reconnus, avec une reconnaissance qui convienne à Facebook. Cela même si l'entreprise dit y travailler. Dans cette première version, les sujets reconnus par le moteur sont simplement listés.

Plusieurs approches ont été envisagées, comme donner une liste simple des « concepts » détectés, par ordre de certitude, en indiquant le pourcentage de confiance. La méthode choisie est censée être plus naturelle : le nombre de personnes, le fait qu'elles sourient ou non, puis la liste des objets par ordre de certitude et, enfin, la scène globale (comme le cadre) et les propriétés de l'image... Précédés d'une indication « L'image peut contenir ».

Cette solution automatique est donc censée éliminer le souci des légendes inexistantes, incomplètes ou trop peu descriptives. Une solution très différente de celle de Twitter, qui a annoncé ajouter une description de 420 caractères aux images. Un moyen d'aider à la compréhension des clichés, mais aussi de préserver la limite de 140 caractère du message tout en permettant aux utilisateurs d'en mettre beaucoup plus.

De son côté, lors de la dernière conférence Build, Microsoft a présenté un système de reconnaissance automatique des images, qui doit aider les déficients visuels dans leur quotidien, par exemple en décrivant ce qui se passe dans une direction, avec l'indication de l'action d'une personne. Une belle démo technologique qui doit encore trouver un moyen d'arriver dans nos quotidiens.

19 commentaires
Avatar de Arystos INpactien
Avatar de ArystosArystos- 06/04/16 à 06:57:35

À quand le retrait pour "racisme" ?

de mémoire Google avait proposé un truc similaire et un bon nombre de personne afro américaines avaient été catalogués comme des singes...

Avatar de GuillaumeSlash INpactien
Avatar de GuillaumeSlashGuillaumeSlash- 06/04/16 à 07:11:02

Mouais, c'est une feature intéressante pour les malvoyants, mais ça sera très probablement utilisé pour des publicités mieux ciblés...

Soyez honnête Facebook. ^^'

Avatar de darkbeast Abonné
Avatar de darkbeastdarkbeast- 06/04/16 à 07:33:45

C'est marrant l'image de la pizza, ça me rappelle la jambe d'un ancien amis après une glissade à moto en short . Est ce que fessebouque aurait détecté ça en pizza ou jambe en charpie.

Avatar de v1nce INpactien
Avatar de v1ncev1nce- 06/04/16 à 07:44:32

need. Une extension pour navigateur qui filtre les images "mon petit poney" (sur deviantart par exemple).

Il me semble que NI n'avait pas fait de news sur le pendant chez Google : deep dream et les videos délirantes que cela permet   

Avatar de YamaLandia INpactien
Avatar de YamaLandiaYamaLandia- 06/04/16 à 07:51:37

v1nce a écrit :

need. Une extension pour navigateur qui filtre les images "mon petit poney" (sur deviantart par exemple).

Il me semble que NI n'avait pas fait de news sur le pendant chez Google : deep dream et les videos délirantes que cela permet   

http://www.catuhe.com/post/Coding4Fun-and-Extreme-Defense-Grid-Explorer.aspx :D :D

Avatar de v1nce INpactien
Avatar de v1ncev1nce- 06/04/16 à 07:53:11

Je te hais.

Avatar de Exception INpactien
Avatar de ExceptionException- 06/04/16 à 08:38:26

Poisson d'avril.

Avatar de tazvld Abonné
Avatar de tazvldtazvld- 06/04/16 à 08:45:09

Arystos a écrit :

À quand le retrait pour "racisme" ?

de mémoire Google avait proposé un truc similaire et un bon nombre de personne afro américaines avaient été catalogués comme des singes...

Ha, ça me dit quelque chose ça en effet...

C'est malheureusement dû à la façon dont l'apprentissage a été fait : il distingue finalement assez de trait pour reconnaître un visage mais il a appris à distinguer un "Homme" d'un "singe" par la composition colorimétrique de la "peau". N'ayant pas forcément été nourris de suffisamment de photo d'Homme aux teintes de peau foncées durant son apprentissage pour trouver des moyens plus fin pour faire la distinction, un primate à la couleur de peau foncée est donc pour lui "un singe".

C'était je crois aussi Logitech qui eux avait des difficultés à distinguer un visage lorsque la personne avait une peau particulièrement foncée. Là, je pense que le problème venais plutôt des traitements permettant de reconnaître les différents élément (bouche, nez, yeux) composant un visage qui est parasité par le faible contraste qu'offre une peau très foncé pour facilement faire ressortir la bouche et le nez.

Avatar de Krogoth Abonné
Avatar de KrogothKrogoth- 06/04/16 à 08:47:55

Celà dit il a fallu également du temps à "l'homme blanc" pour ne pas prendre les "hommes noirs" pour des singes. L'IA reste quand même plus rapide dans son apprentissage.

Avatar de WereWindle INpactien
Avatar de WereWindleWereWindle- 06/04/16 à 09:00:20

Krogoth a écrit :

Celà dit il a fallu également du temps à "l'homme blanc" pour ne pas prendre les "hommes noirs" pour des singes. L'IA reste quand même plus rapide dans son apprentissage.

D'autant que si je me rappelle le bel exemple donné par des membres de ce qu'il faut bien appeler, faute d'un meilleur terme, nos représentants, ledit apprentissage est loin d'être acquis :transpi:

Il n'est plus possible de commenter cette actualité.
Page 1 / 2
  • Introduction
  • Amener plus d'interactions avec les photos
  • Un réseau neuronal calqué sur le cortex visuel
  • Une centaine de « concepts » inclus dans les textes 
  • Des phrases « naturelles » mais pas trop
S'abonner à partir de 3,75 €