Système Hérisson : La France se pique au réseau Echelon (MàJ)

Aye ! 348
Mise à jour 24 mars 2009 : Dans une interview publiée par Ecrans.fr, la Délégation générale pour l’armement (DGA) confirme l’authenticité des documents relatifs au projet HERISSON évoqués dans nos colonnes, tout en relativisant leur portée. 

« Il s’agit de ce qu’on appelle le cahier des clauses techniques particulières (CCTP), et il était en annexe de l’appel d’offres » explique la DGA qui indique au passage que le document n’était pas classé secret défense. Elle précise qu’HERISSON (Habile Extraction du Renseignement d'Intérêt Stratégique à partir de Sources Ouvertes Numérisées)est un « démonstrateur technologique », une sorte de prototype avec pour « objectif […] de tester, d’évaluer les logiciels dans le commerce et les logiciels libres capables de traiter des sources ouvertes. Il en existe plein, mais tous ne sont pas stables. Alors, on va regarder lesquels sont les plus performants et pourraient nous être utiles. Et voir si on peut les interconnecter ». Toutefois, un logiciel opérationnel est attendu dans les trois ans d’expertises. Une autre source nous a expliqué que d’autres logiciels exploitent en effet ce genre d’informations, mais évidemment pour la DGA l’intérêt est de profiter d’une solution qui lui est propre et indépendante technologiquement. 

La DGA soutient devant nos confrères que son projet n’a pas vocation à pénétrer la sphère privée, comme Echelon, mais à croiser les informations disponibles sur les sources ouvertes des réseaux.. Ainsi, « pour le p2p, on ne va pas surveiller qui télécharge quoi, mais typiquement on doit pouvoir savoir que, sur Emule, telle information est disponible en téléchargement. Par exemple, une vidéo d’Al-Qaida. Autre exemple, pour le « web invisible », il s’agit d’avoir accès à des pages qui ne sont pas ou mal indexées par les moteurs de recherche, mais qui restent encore une fois accessibles à ceux qui savent les chercher ». Enfin, aucune autorisation n’a été demandée à la CNIL pour la mise en place de ce super moteur, « Nous avons regardé, mais elle n’est pas nécessaire, car il s’agit d’un démonstrateur technologique et que nous ne constituons pas de bases de données. »

----------------


fichier espionPremière publication 19 mars 2009 : En ces temps d'HADOPI, d'EDVIGE ou de CRISTINA, un autre projet gouvernemental  se révèle au grand jour : HERISSON. Le cahier des charges, du moins la liasse qui est présentée comme telle, laisse entrevoir un système de surveillance de grande ampleur sur tout ce qui transite sur les réseaux. Analyse.

La France serait-elle en voie de mettre en place l’équivalent d’un réseau Échelon dans l’hexagone pour surveiller et cataloguer tous les faits et gestes de tous les médias, radio, TV et internet compris ? Tout porte à le croire, selon une liasse de documents qui décrit le Système Hérisson, éponyme d’« Habile Extraction du Renseignement d'Intérêt Stratégique à partir de Sources Ouvertes Numérisées ». On pourra en découvrir la totalité sur ce lien Google Doc (le système Herisson.)

Selon ces documents qui nous ont été présentés comme étant le cahier des charges de ce système et daté de l'année passée, Hérisson tend vers la mise en place d’un système de collecte automatisée et de recherche d’informations dignes d’un scénario de film d’espionnage ou de Matrix. La paternité du dossier est attribuée à la DGA, Délégation Générale pour l'Armement dont la mission consiste au suivi et à la validation des moyens de défense militaires et territoriales.

Dans les références de ce fameux des charges, classées dans la rubrique « Biblio » il est ainsi fait mention de plusieurs textes officiels dont l’instruction générale interministérielle sur la sécurité des systèmes d'information « qui font l'objet d'une classification de défense pour eux-mêmes ou pour les informations traitées » ( n°900/SGDN/SSD/DR ou 900/DISSI/SCSSI/DR du 20 juillet 1993), texte qui gère le secret défense. On trouve encore mention de diverses directives ou instructions relatives à la protection contre les signaux parasites compromettants.

Un appel d'offres lancé en 2007

Chose certaine : le système est à rattacher à un appel d’offres lancé en 2007 par le ministère de la défense, la délégation générale pour l'armement, la direction des systèmes d'armes et le service centralisé des achats. Le marché public a pour objet « la Conception, réalisation et évaluation d'une plate-forme dédiée au traitement des sources ouvertes pour le renseignement militaire d'intérêt stratégique ». L’appel d’offres a une durée minimale de 36 mois à compter de la notification du marché et est en phase avec ce cahier des charges.

systeme herisson

IRC, Newsgroup, FTP, P2P, HTTP, etc.

Dans ce fameux cahier des clauses techniques particulières (CCTP), on découvre ainsi que le système vise à glaner à peu près tout ce qui passe sur les réseaux aux fins notamment de renseignement militaire d'intérêt stratégique. On peut le voir dans le tableau ci-dessous que par exemple tous les contenus qui transitent sur les chats IRC, les mailings listes, les forums, les réseaux sociaux, les Newsgroups, les flux RSS, les blogs, podcasts, et les systèmes P2P feront l’objet d’une surveillance approfondie, avec une priorité soit « importante » soit « primordiale » selon les flux. La plate-forme est destinée à être installée au centre d'expertise parisien (CEP) d’Arcueil indiquent les pages.

Mais c’est surtout dans la section « Exigences » qu’on apprécie l’ampleur du système Hérisson. Il est calibré ainsi pour accéder à n’importe quel contenu ((texte, image, son et vidéo), quel que soit les langages utilisés « HTML, PHP, ASP... ) ») en prenant en compte « la problématique des liens «cachés» en extrayant les liens a minima dans les  applications flash contenues dans une page, les codes Java Script ». Hérisson sait aussi collecter et stocker le contenu complet d'un site FTP ou collecter simplement son arborescence, sait télécharger les fichiers disponibles sur un réseau P2P.

Tous les types de fichiers

Notre curieux mammifère poursuit sa longue route en ayant « la capacité de collecter des données via les protocoles : MMS (flux vidéo type Windows Media Player) RSTP (flux vidéo type Real Player) POP3 (messagerie) », et donc des emails. Pour faire bonne mesure, « le système HÉRISSON a la capacité de gérer un éventail large, non restreint et évolutif de formats de documents de type : Vidéo (AVI, MPG, MOV, MP4, Real, FLV, OGM ...) ; Audio (WAV, MP3, OGG...) ; Image (BMP, JPG, TIFF...) ; Texte (HTML, MHTML, Open Document, Open XML/Microsoft Office, Adobe PS/PDF, Flash).

L’œuvre d’observation et de collecte « prend [aussi] en compte la problématique du Web invisible en proposant des moyens, méthodes et outils, permettant l'accès à ces sous-ensembles du Web Invisible ». Le tout est archivé et chaque mise à jour « d'un gisement Web, FTP ou NMTP » fait l’objet d’un stockage différencié pour tenir compte des évolutions des contenus amassés.

Le système s’attaque aussi bien au web qu’aux radios et aux TV. Ainsi, les langues des documents audio devant être identifiées dans le système HÉRISSON sont :

[P]rimordial : le français, l'anglais, l'arabe, le russe, le farsi.
[I]mportant ; l'espagnol, l'allemand, , le chinois mandarin, l'italien,k le serbo-croate, l'hindi, le japonais, le coréen, le turc, l'ukrainien, l'hébreu, l'urdu, l'albanais, le macédonien.
[S]ouhaitable : le néerlandais, le grec, le portugais, le polonais.
 
Pour les images, Hérisson permet l'accès aux caractéristiques brutes et aux métadonnées d'une image, « comme le type et les caractéristiques d'encodage, la résolution, le taux de compression, les champs EXIF, les statistiques usuelles liées à l'image histogramme, moments centrés...), ... il note aussi la provenance de l'image (URL pour les images obtenues via Internet) et éventuellement le nom du photographe ». Hérisson « reconnaît les images transformées » et « lorsqu'une photographie a subi des transformations (rotations, changement d'échelle, compression, modification des contrastes,...), [il] sait reconnaître l'image originale parmi les images qui en sont issues ».

Pour pousser un peu plus loin l’excavation des données glanées, Hérisson permet « la détection et classification d'objets contenus dans une image (personne, véhicule, meuble...). Cette fonctionnalité sera évaluée avec les méthodologies utilisées dans les évaluations Techno-Vision/ImagEval, tâche n°4, PASCAL VOC (Visual Object Classes challenge), et CLEAR (tâche « 2D Face détection ») ». Sur les vidéos, HÉRISSON « permet la détection et l'identification de personne dans une vidéo. Cette fonctionnalité sera évaluée avec la méthodologie utilisée dans l'évaluation CLEAR (tâche « person identification ») »
 
Reconnaissance de caractères, faciale et d'objets
 
S’ajoutent à la [très] longue liste, la reconnaissance des caractères (détection du texte, détection des colonnes, détection de zones de texte, détection de tableaux, détection de formats de caractères et de polices, détection de graphiques, etc.), la détection d’éléments « de contexte d'une image (photo couleur, photo noir&blanc, reproduction artistique, visage, scène intérieur/extérieur, ville/campagne/bord de mer/montagne/..., jour/nuit; présence/absence d'objets manufacturés où d'artefacts d'origine humaine, ...) »…

Des données exploitées par un moteur multicritère

Une fois la masse de données stockées, l’exploitation se fait avec une fonction de recherche avancée (ou multicritère) qui permet a minima de préciser une combinaison booléenne des paramètres suivants:

Date (avec intervalle),
Taille (avec un intervalle),
Type de document (texte, image, graphique, vidéo, audio),
Format de fichier,
URL d'origine.
Les propriétés du contenu :
L'exclusion de mot,
Une expression exacte,
La combinaison booléenne entre les mots-clés,
Les mots commençant par une chaîne de caractères donnée,
Distance entre les mots dans le texte,
Expression régulière,
Localisation dans la page (titre / corps de texte),
Une écriture phonétique,
Une orthographe approchée,
Dans une page (URL) précise,
Dans les pages contenant un lien précis.

Exemple piquant, « Le système offre la possibilité de reconnaître l'entité elle-même de plusieurs manières différentes: Soit par mention explicite. Exemple : « Nicolas Sarkozy », Par mention relative (« le nouveau président français »), par mention partielle (« Monsieur Sarkozy », « le Président »), par anaphore (« il », « celui-ci »), par surnom (« Sarko ») ».

Nous devrions avoir plus d'informations prochainement sur ce système... Notons qu'un commentaire sous cet article de Rewriting parlait déjà d'Hérisson  en juillet  2008, suivi d'un autre papier d'Aliboron, en août 2008...
Par Marc Rees Publiée le 24/03/2009 à 16:45