Facebook s’est épanché hier soir sur son système de reconnaissance d’écriture dans les photos et vidéos. Une technologie spécifique, alimentée par le machine learning, les OCR classiques étant peu adaptés aux usages modernes, selon l’éditeur.

La reconnaissance se fait en deux étapes : détection puis reconnaissance. La première tâche de repérer les régions semblant contenir du texte, via Faster R-CNN. Vient ensuite la reconnaissance des caractères, à travers un réseau neuronal convolutif.

Le modèle de Facebook, nommé Rosetta, a permis l’analyse de plus d’un milliard de photos et vidéos sur le réseau social et Instagram. Les textes ainsi extraits permettent de déclencher plus facilement les outils de modération si besoin, ou encore de mieux orienter les recommandations.

Bien que l’éditeur affiche un certain contentement sur sa technologie, il estime que la route est encore longue, surtout pour les vidéos. L’approche actuelle est décrite comme « naïve », puisque chaque image est analysée séparément.

La durée des vidéos et l’augmentation de la résolution ne font qu’allonger la durée de calculs. Facebook envisage donc de se pencher sur les convolutions 3D pour s’extraire de la seule détection spatiale au profit de modèles temporels.