Facebook Rosetta pour détecter du texte depuis des imagesCrédits : domoskanonos/iStock

Facebook s’est épanché hier soir sur son système de reconnaissance d’écriture dans les photos et vidéos. Une technologie spécifique, alimentée par le machine learning, les OCR classiques étant peu adaptés aux usages modernes, selon l’éditeur.

La reconnaissance se fait en deux étapes : détection puis reconnaissance. La première tâche de repérer les régions semblant contenir du texte, via Faster R-CNN. Vient ensuite la reconnaissance des caractères, à travers un réseau neuronal convolutif.

Le modèle de Facebook, nommé Rosetta, a permis l’analyse de plus d’un milliard de photos et vidéos sur le réseau social et Instagram. Les textes ainsi extraits permettent de déclencher plus facilement les outils de modération si besoin, ou encore de mieux orienter les recommandations.

Bien que l’éditeur affiche un certain contentement sur sa technologie, il estime que la route est encore longue, surtout pour les vidéos. L’approche actuelle est décrite comme « naïve », puisque chaque image est analysée séparément.

La durée des vidéos et l’augmentation de la résolution ne font qu’allonger la durée de calculs. Facebook envisage donc de se pencher sur les convolutions 3D pour s’extraire de la seule détection spatiale au profit de modèles temporels.

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !