Show and Tell, l'intelligence artificielle de Google qui permet d'ajouter des descriptions automatiques, est disponible en open source. Au-delà de lister des éléments, elle peut les mettre en perspective, à condition que l'IA soit suffisamment entrainée.
Google, comme bien d'autres sociétés, exploite depuis longtemps l'intelligence artificielle dans de nombreux secteurs (voir cette actualité par exemple). Il y a un peu plus d'un an, le géant du Net publiait sous licence Apache 2.0 son moteur d'apprentissage profond TensorFlow.
Aujourd'hui, il propose un nouveau modèle open source pour ce dernier : Show and Tell, sous-système de sous-titrage automatique des images. Il s'agit de la troisième itération de son service lancé pour la première fois en 2014, maintenant disponible dans ce dépôt GitHub.
Quand l'intelligence artificielle copie l'humain pour décrire des images
Par rapport aux versions précédentes, cette mouture devrait être « beaucoup plus rapide » avec des « descriptions plus détaillées et précises ». Pour appuyer ses dires, Google met en avance le score obtenu au test de reconnaissance ImageNet 2012 : précédemment de 89,6 à 91,8 %, le taux de réussite est désormais de 93,9 %.
Au-delà de la détection correcte des éléments d'une image, il faut pouvoir les mettre en perspective afin de raconter une histoire et pas simplement les lister, ce qui peut également faire Show and Tell. Des détails et des explications techniques sont disponibles par ici (PDF).
Pour arriver à ce résultat, il n'y pas de magie, mais des « centaines de milliers d'images qui ont été sous-titrés manuellement par des humains ». Lorsque la scène est très proche d'autres qu'elle a déjà étudié, l'intelligence artificielle réutilisera un texte écrit par l'Homme.
Elle dispose également de la capacité de « générer de nouvelles légendes » lorsque les images proposées intègrent une scène complètement inédite. Pour cela, elle va mixer et regrouper des éléments d'autres images afin de la reconstituer. Voici deux exemples :
Reste à trouver les images pour entrainer l'intelligence artificielle
Si Google publie en open source l'algorithme de son intelligence artificielle Show and Tell, ce n'est pas le cas des « centaines de milliers d'images » nécessaires à son apprentissage. Il s'agit pourtant d'un élément indispensable pour entrainer l'IA afin qu'elle donne des résultats probants.
C'est d'ailleurs une des forces des géants comme Google et Facebook qui disposent d'une quantité phénoménale d'images annotées par des humains. Comme nous l'avons déjà expliqué dans ce dossier sur l'intelligence artificielle, l'année dernière les utilisateurs du réseau social de Mark Zuckerberg téléchargeaient 600 millions d'images par jour sur Facebook, un chiffre qui passe à 2 milliards avec Instagram et WhatsApp.
Facebook et Microsoft développent leurs propres solutions
Dans tous les cas, la mise en open source de cet outil n'est pas anodine. Google essaie de se positionner sur un secteur où deux autres poids lourds sont également présents : Facebook avec la description automatique des photos et Microsoft qui peut utiliser Cortana pour décrire à un aveugle ce qu'il se passe devant lui.