La NSA et son équivalent anglais, le GCHQ, ont investi durant des années dans la recherche sur la reconnaissance vocale. Les agences de renseignement seraient en capacité d’écouter des conversations dans de nombreuses langues pour les convertir automatiquement en texte anglais. Les documents seraient alors stockés dans une base de données interrogeable par les analystes.
Transcrire à la volée et en anglais des conversations enregistrées
Les documents dérobés à la NSA par Edward Snowden ont montré à de très nombreuses reprises l’étendue des capacités de l’agence américaine de renseignement, mais pas seulement. Ils ont mis en évidence des réseaux de relations entre les pays, notamment une alliance formée par les États-Unis et le Royaume-Uni, et plus globalement avec le Canada, la Nouvelle-Zélande et l’Australie : les fameux Five Eyes.
The Intercept a pu plonger dans d’autres documents, qui abordent cette fois la reconnaissance vocale. On y apprend comment la NSA et le GCHQ ont utilisé le logiciel Dragon Dictate et l’ont modifié durant des années pour arriver au résultat attendu. Avec un tel outil, les agences sont capables de passer à la moulinette l’ensemble des conversations vocales enregistrées pour les traduire automatiquement sous forme de texte.
Les analystes ont donc accès à une base de données particulièrement riche contenant ces transcriptions ainsi que les fichiers audio d’origine. Divers algorithmes travaillent sur les versions textes pour repérer automatiquement certains mots-clés et marquer des conversations comme « intéressantes ».
Au moins un million de transcriptions par jour
La première utilisation du logiciel, nommé RHINEHART, remonterait à 2004 et se serait montré si efficace que les propres analystes de la NSA l’auraient surnommé « Google For Voice ». Il aurait été remplacé plusieurs années après par VoiceRT, plus performant et utilisé pour la première fois à Bagdad. En 2013, nouveau remplacement avec SPITFIRE, à son tour nettement plus rapide. Les documents donnent d’ailleurs un ordre d’idée des capacités mises en mouvement, puisque VoiceRT pouvait analyser, transcrire et repérer les termes intéressants au rythme d’un million de fichiers audio par jour.
Les documents vus par The Intercept ne permettent cependant pas de connaître l’étendue de l’utilisation de ces solutions aujourd’hui ou même durant la dernière décennie. Il est certain qu’elles ont été utilisées à l’étranger puisque le but premier est de traduire automatiquement en anglais, mais rien ne dit que l’une ou l’autre n’ait pas été employée directement sur le sol national.
La collecte des métadonnées remise en cause aux États-Unis
L’avenir des données téléphoniques aux États-Unis pourrait d’ailleurs changer dans les mois qui viennent. L’ACLU (American Civil Liberties Union) avait en effet déposé plainte contre le gouvernement pour avoir dépassé les permissions du Patriot Act sur la collecte à très large échelle des métadonnées téléphoniques. Or, une cour fédérale d’appel vient de donner raison à l’association, en indiquant que si le Congrès souhaitait autoriser une pareille collecte, il pouvait légiférer en ce sens, mais que la loi actuelle ne l’autorisait pas.
L’affaire a donc été renvoyée devant un autre tribunal. La chronologie pourrait mal tomber pour la NSA car l’autorisation doit être renouvelée périodiquement, le mandat actuel expirant le 1er juin. L’ACLU se félicite de cette victoire et estime désormais que la situation dépend entièrement du Congrès.