Malpedia, une nouvelle encyclopédie des malwares pour aider les chercheurs en sécurité

Malpedia, une nouvelle encyclopédie des malwares pour aider les chercheurs en sécurité

Un goût de Jurassic Park

Avatar de l'auteur
Guénaël Pépin

Publié dans

Internet

01/02/2018 11 minutes
7

Malpedia, une nouvelle encyclopédie des malwares pour aider les chercheurs en sécurité

Avec Malpedia, le chercheur en sécurité Daniel Plohmann veut accélérer l'identification des malwares et créer une large archive d'échantillons, des plus anciens aux plus récents. Les informations sur ces logiciels seraient encore fragmentées, malgré un mouvement d'ouverture de l'industrie sur ses outils, illustré à la dernière Botconf.

Se repérer dans la jungle des malwares n'est pas toujours chose aisée. Entre les différents noms donnés à un même logiciel, les versions successives et les dérivés, les identifier peut même ressembler à un parcours du combattant. C'est de ce constat qu'est parti Daniel Plohmann, chercheur en sécurité à l'institut Fraunhofer, pour construire Malpedia. Il s'agit d'une encyclopédie technique « semi-ouverte » destinée à trier et documenter l'ensemble des malwares en existence.

L'outil a ouvert ses portes lors de la dernière Botconf, une conférence annuelle sur la lutte contre les botnets, qui se déroulait début décembre à Montpellier (voir notre compte rendu). L'automatisation et l'intelligence artificielle étaient des tendances de fond, que des bases de données comme Malpedia peuvent aider, en fournissant des informations fiables, explorables facilement.

Actuellement, la base contient 2 242 échantillons de malwares, répartis dans 718 familles, liées aux acteurs les diffusant. À son annonce, elle a immédiatement piqué l'intérêt des participants de la conférence. Ils ont été plusieurs dizaines à réclamer un accès dans l'heure qui a suivi.

L'intérêt ? Aider les chercheurs en sécurité à déblayer le terrain avant de se lancer dans l'analyse ou la rétroingénerie d'un malware, qui demande beaucoup de temps.  « Il faut de telles initiatives. Comme theZoo, elles fournissent des éléments aux chercheurs, qui n'ont pas le temps de collecter des malwares, voire d'accès aux outils [privés] comme VirusTotal... Le nom reste un vrai problème pour les virus. Chaque éditeur d'antivirus les nomme à sa manière, pour se retrouver avec 18 appellations » note un organisateur de la Botconf.

Une initiative inspirée par bien d'autres

Le projet serait né d'un « lightning talk » de Wayne Crowder de Shamrock Trading Corp, à la Botconf de 2015, sur le nommage des malwares. Plohmann avait déjà « commis » DGArchive en 2014, une base indépendante de noms de domaines générés par les botnets pour communiquer. Ces points de rencontre, générés (quasi) aléatoirement, sont l'une des principales techniques de ces réseaux pour échapper à la vigilance des responsables et chercheurs en sécurité.

Ce lancement à la Botconf n'est donc pas un hasard. D'autant qu'un des projets précédents, qui ont déjà tenté une approche encyclopédique, est lié à la conférence. Il s'agit de botnets.fr, un wiki créé par Éric Fressyinet, qui recense les réseaux d'appareils zombies avec de nombreuses informations. Le chef de la mission numérique de la gendarmerie, et président de la conférence, l'avait monté dans le cadre de sa thèse sur le sujet.

Plus proches de Malpedia, d'autres initiatives avaient tenté de rassembler des malwares de manière plus ouverte que les bases privées. Dans sa présentation, le chercheur à Fraunhofer recense  theZooVirusBay.io et l'ID Ransomware de la Malware Hunter Team, destiné à identifier le rançongiciel ayant chiffré des données.

Il y a peu de grandes bases groupant l'ensemble des malwares ayant un jour infecté un appareil. Pour Plohmann, deux raisons dominent. « La première est que c'est beaucoup d'efforts. Une grande part du partage d'informations a lieu à huis clos. Construire une telle archive ou registre demande beaucoup de travail » estime-t-il.

La seconde est que ça « n'aide pas vraiment sur le front [pour protéger les utilisateurs]. Normalement, vous cherchez l'échantillon le plus frais possible pour pouvoir le détecter » dans la nature, estime-t-il. Les outils existants, comme VirusTotal, privilégient ainsi le partage à huis clos pour que les éditeurs clients puissent ajouter rapidement un malware à leurs outils de détection.

Malpedia fait donc « un pas en arrière » par rapport à cette logique, en privilégiant l'identification à la détection. Le but n'est pas d'être dans les premiers à avoir un malware en base, mais de référencer tous ceux sur lesquels une analyse a été publiée, avec les échantillons.

Malpedia inventaire Botconf
Un aperçu de la liste publique des malwares répertoriés

Une encyclopédie patiemment construite

La conception de l'outil a été principalement menée par Daniel Plohmann lui-même, avec le soutien de Martin Clauß et de Steffen Enders de l'Institut technique de Dortmund pour toute la partie technique. Début décembre, quelques contributeurs avaient déjà poussé des données dans l'encyclopédie. Elle est avant tout un projet personnel à l'institut, et non une activité principale. À cette date, plus de 80 % des familles enregistrées étaient sur Windows, le reste se répartissant entre Android, iOS, macOS, ELF, et Symbian.

Pour trouver de nouveaux matériaux, le chercheur a construit un flux Twitter spécifique, qui fait remonter les rapports d'analyse et billets de blog des éditeurs d'antivirus et des spécialistes de la « connaissance de la menace » (threat intelligence). Il référence les empreintes (hashes) indiquées pour les comparer à celles déjà en base et éventuellement l'ajouter à une famille existante.

« Parfois, si ça ne rentre dans rien, je crée un nouvel ensemble (bucket). Même si je n'ai pas de nom pour. Il y a environ une vingtaine de familles qui ne sont pas identifiées, parce que personne n'a écrit dessus, ou que je n'ai trouvé aucune référence » explique-t-il. Il s'aide donc de toutes les sources à sa disposition, y compris certaines privées comme VirusTotal.

L'ambition est de couvrir l'ensemble des familles de malwares, plutôt que d'ajouter tous les représentants (les échantillons) de chacune d'entre elles. La base est liée à celle de MISP Galaxy, qui référence entre autres des acteurs impliqués dans des attaques informatiques.

Une autre question posée par l'encyclopédie est celle de la  version des échantillons, chaque famille de malware évoluant avec le temps ou étant reprise par des tiers. Pour Daniel Plohmann, cette gestion des versions peut être compliquée, déjà par manque de date sûre pour chaque échantillon. Dans bien des cas, il exploite les entêtes des fichiers exécutables sur Windows (PE headers), qui peuvent être forgés. En alternative, il s'appuie sur la première mise en ligne sur VirusTotal, « surement proche de la première fois où il a été créé ».

Briser la barrière de 2013

Le chercheur se heurte tout de même à une barrière, celle de l'an 2013. Début décembre, 92 % des malwares enregistrés étaient nés après cette date. Le rythme de construction de la base ralentit, et il doit à la fois fouiller bien plus pour trouver les logiciels antérieurs à cette date, tout en étant plus à l'affut des publications. 

« Je suis vraiment intéressé par l'idée de trouver des données antérieures à 2013, pour trouver des malwares « classiques » comme Waldek » nous déclare Daniel Plohmann, qui explique ses difficultés par le manque de culture de la préservation dans le monde de la recherche sur les malwares.

« Cet aspect de préservation, c'est quelque chose dont nous devrions nous préoccuper. Le monde universitaire est très bon dans la documentation, la publication d'articles et leur conservation pour toujours. La plupart des équipes de réponse aux incidents ont pour seul intérêt d'agir rapidement, d'accomplir le but du moment. Elles ne sont pas très bonnes dans la construction de connaissances structurées sur une longue période » pense-t-il.

Il note tout de même que certains éditeurs privés doivent avoir des bases internes fournies, « mais ces données ont une immense valeur, donc ils les gardent pour eux ». L'espoir qu'ils participent à Malpedia existe tout de même, ne serait-ce qu'en retour du service rendu par la base de données, sachant que ces entreprises s'échangent déjà quantités d'informations entre elles.

Un important travail d'analyse des malwares

Dans cet univers, l'un des objectifs de Malpedia est d'apporter des échantillons labellisés et dépaquetés de malwares, pour faciliter leur analyse statique (à froid). Pour une partie d'entre eux, Malpedia produit aussi des « dumps », soit une vue instantanée de leur exécution, comprenant ce qu'ils ont en mémoire à chaud. Ils alimentent les analyses statiques fournies clés en main pour 446 familles de malwares, principalement sur Windows.

Ils sont générés à partir de Windows XP SP3 et Windows 7 SP1 (64 bits). « Les malwares s'y sentent chez eux », résume-t-il. La famille d'appartenance est ensuite déterminée via Yara (un outil très utilisé pour classer les malwares) ou via une enquête manuelle.

« Je fais beaucoup d'analyse dynamique pour produire des résultats qui peuvent être réutilisés pour des analyses statiques, parce que c'est beaucoup plus rapide. J'essaie donc de produire de bonnes données, facilement traitables par la suite » justifie le chercheur. S'il se concentre pour le moment sur Windows, il nous déclare qu'une extension à Android serait relativement aisée.

Sur les 718 familles en base, 199 sont associées à des règles d'identification Yara. En plus d'une couverture étendue, le travail pourrait donc consister à fournir davantage de ces éléments techniques, censés être une des clés de l'automatisation dans l'analyse des malwares.

À ce sujet, la propreté de la base est privilégiée sur les autres considérations. « Pour Yara, j'ai un test quotidien de régression. Je vois tous les faux positifs et faux négatifs. Cela permet de les corriger incrémentalement. Cela donne une vue claire des familles non couvertes, dont n'importe qui écrivant des règles Yara peut traiter celles-ci » affirme le chercheur.

Un accès aux données fondé sur la confiance

Si elle est collaborative, l'encyclopédie est loin d'être totalement ouverte. Une partie des informations de base sont publiques (la liste des familles, les acteurs, certaines règles Yara associées...), quand bien d'autres ne sont disponibles que pour les membres. Ces derniers sont ajoutés sur invitation d'un membre existant, qui se porte garant de lui.

Le modèle est inspiré de celui du forum Ops-Trust. N'importe quel membre peut suggérer des modifications, qui sont ensuite validées par deux modérateurs, ne sachant pas qui les a proposées. Les contributeurs pourraient surtout s'engager pour l'intérêt général, Daniel Plohmann insistant sur la neutralité de son outil face aux acteurs du marché.

À la mi-janvier, Daniel Plohmann déclare que 350 utilisateurs s'étaient inscrits, pour une dizaine de contributions quotidiennes. Il en profitait pour exploiter les données déjà en ligne, pour établir un panorama des similarités du code des différentes versions du cheval de Troie bancaire ZeuS, triées selon les campagnes l'utilisant.

ZeuS Malpedia Daniel Plohmann Botconf
Une comparaison visuelle des variantes du malware ZeuS, par Daniel Plohmann

À plus long terme, Malpedia est censé devenir « un point de référence » fiable, au prix de l'interactivité si nécessaire. « Je crois vraiment aux projets qui se limitent à certaines fonctions. DGArchive était uniquement une base de données pour DGA. Ce projet [Malpedia] est un corpus organisé dans l'idée d'être idéal pour l'identification. » 

Les intégrations tierces sont limitées. Une API REST publique est fournie pour chercher des noms. Par la suite, la possibilité d'envoyer des échantillons pour identification pourrait être ouverte à certaines organisations, via une API privée.

L'avenir de la base au sein de Fraunhofer n'inquiète pas trop son auteur. « C'est motivé par moi-même, comme DGArchive. Je le fais depuis deux ans et je pense que ça a été bénéfique pour la communauté, donc ça nous donne des arguments pour les maintenir » estime le chercheur.

Pour un organisateur de la Botconf, « les initiatives [comme Malpedia] vont dans le bon sens. Il y aura un darwinisme sur ces solutions. Celle qui sera la plus pratique à l'usage et qui rassemblera le mieux l'information pour tout structurer, celle-là survivra ». Les prochains mois diront si l'initiative gagnera ses premiers galons publics, après la première bonne impression donnée à la Botconf.

Écrit par Guénaël Pépin

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Une initiative inspirée par bien d'autres

Une encyclopédie patiemment construite

Briser la barrière de 2013

Un important travail d'analyse des malwares

Un accès aux données fondé sur la confiance

Fermer

Commentaires (7)


“Un goût de Jurassic Park”



Quoi Saddam Hussein est encore vivant ? <img data-src=" /><img data-src=" /><img data-src=" />


ça me rappelle quand j’étais gamin et que je regardais l’encyclopédie des virus (au sens large) sur l’antivirus de mon père <img data-src=" />








WereWindle a écrit :



ça me rappelle quand j’étais gamin et que je regardais l’encyclopédie des virus (au sens large) sur l’antivirus de mon père <img data-src=" />







C’est le même principe



Genre la cybermap de Kaspersky ^^



https://cybermap.kaspersky.com/


leur présentation est super sympa, j’aime beaucoup ^^ (tu mets ça sur un écran au mur : wow-effect assuré pour le boss <img data-src=" /> … même si l’intérêt pratico-pratique est plus discutable <img data-src=" /> )








WereWindle a écrit :



leur présentation est super sympa, j’aime beaucoup ^^ (tu mets ça sur un écran au mur : wow-effect assuré pour le boss <img data-src=" /> … même si l’intérêt pratico-pratique est plus discutable <img data-src=" /> )





C’est inutile donc indispensable <img data-src=" />tu le met en écran de veille (je crois que c’est faisable en plus)&nbsp;



Pas mal du tout, l’idée est intéressante.

Le contenu des entrées de cette encylcopédie me semble plutôt sommaire jusqu’ici, mais c’est peut-être amené à évoluer avec le temps.