Comment les métadonnées éphémères peuvent causer de vrais problèmes

Les fuites de données les plus dangereuses sont celles que les utilisateurs ne connaissent même pas.

Besoin d’aide s’il vous plaît : quelle menace informatique est la plus dangereuse pour les sociétés, petites et moyennes entreprises, gouvernements et individus ?

La réponse est bien sûr la fuite de données. A présent : quelles sont les fuites de données les plus difficiles à prévenir ? Et la réponse est ce que les utilisateurs ne savent pas.

Metadata in office document files

Aujourd’hui nous allons parler d’un sujet que les individus ne connaissent pas ou auquel ne pensent pas beaucoup, les métadonnées, des informations sur un fichier plutôt que des informations figurant dans un fichier. Les métadonnées peuvent transformer un document numérique en un fichier compromettant.

Métadonnées de documents

Commençons notre immersion par un peu de théorie. La loi américaine définit trois catégories de métadonnées :

  1. Les métadonnées d’applications sont ajoutées au fichier par l’application utilisée pour créer le document. Ce type de métadonnées garde des modifications effectuées par l’utilisateur, y compris changer des identifiants et des commentaires.
  2. Les métadonnées des systèmes comportent le nom de l’auteur, le titre du fichier et la taille, les modifications etc.
  3. Les métadonnées intégrées peuvent être formulées dans des cellules Excell, des hyperliens, et des fichiers associés, etc. Les métadonnées EXIF typiques des fichiers graphiques appartiennent aussi à cette catégorie.

Voici un exemple classique de problèmes que les métadonnées compromises peuvent engendrer : le rapport du gouvernement britannique de 2003 sur les prétendues armes de destruction massive de l’Irak. La version .doc du rapport incluait des métadonnées sur les auteurs (ou précisément, des personnes qui avaient introduit les 10 dernières modifications). Ces informations avaient lancé quelques signaux sur la qualité, l’authenticité, et la crédibilité du rapport.

Selon la BBC, à la suite de la détection des métadonnées du fichier d’origine, le gouvernement avait choisi d’utiliser la version .pdf du rapport à la place, du fait qu’il contenait moins de métadonnées.

Un fichier (trafiqué) de 20 millions de dollars

Une autre révélation curieuse concernant des métadonnées avait impliqué un client de Venable, un cabinet juridique américain, en 2015. Venable avait été contacté par une entreprise dont le vice-président avait récemment démissionné. Peu après sa démission, l’entreprise avait perdu un contrat avec une organisation gouvernementale pour un concurrent, un concurrent travaillant avec l’ancien vice-président.

L’entreprise avait accusé son ancien vice-président de ne pas avoir respecté le secret professionnel, en indiquant que c’est de cette manière qu’il avait gagné le contrat gouvernemental. Pour leur défense, l’accusé et son nouveau cabinet avaient fourni comme preuve une offre commerciale similaire préparée pour un gouvernement étranger. Ils avaient indiqué qu’elle avait été créée pour un autre client avant que le contrat soit lancé aux Etats-Unis, et que par conséquent il ne violait pas la convention de non-concurrence de l’ancien vice-président avec le plaignant.

Mais les accusés avaient omis de considérer que les métadonnées dans leur témoignage contenaient une anomalie de l’horodatage. Les métadonnées du système ont montré que le fichier avait été sauvegardé pour la dernière fois avant la dernière impression, qui, selon les affirmations d’un expert, ne peut pas se produire. L’horodatage de la dernière impression appartient aux métadonnées de l’application, et est sauvegardé dans le document uniquement lorsque le fichier lui-même est sauvegardé. Si un document est imprimé et n’est pas sauvegardé ensuite, la nouvelle date de l’impression n’est pas sauvegardée dans les métadonnées.

Une autre preuve de falsification de documents était sa date de création sur le serveur d’entreprise. Le document avait été créé après que le procès a eu lieu devant les tribunaux. De plus, les prévenus ont été accusés d’avoir altéré l’horodatage de la dernière modification dans les fichiers .olm (cette extension est utilisée sur Microsoft Outlook pour les fichiers Mac).

Les preuves des métadonnées étaient suffisantes pour que la justice se prononce en faveur des plaignants, en les dédommageant de 20 millions de dollars et en sanctionnant les accusés avec des millions supplémentaires.

Fichiers cachés

Les fichiers Microsoft Office proposent un riche ensemble d’outils de collecte de données privées. Par exemple, les notes de bas de page du texte peuvent inclure des informations supplémentaires qui ne sont pas destinées à un usage public. Le suivi de révision intégré dans Word pourrait également être utile pour un espion. Si vous choisissez l’option « Final : afficher les marques » (ou « pas de marge » ou similaire, selon la version de votre Word), le suivi des modifications disparaîtra de l’écran, elles resteront dans les fichiers, en attendant un lecteur attentif.

Il existe également des notes pour les diapositives dans les présentations Power Point, des colonnes cachées dans des feuilles Excel, et plus encore.

En fin de compte, les tentatives de masquer des données sans savoir comment le faire correctement ont tendance à ne pas fonctionner. Un bon exemple ici est un document judiciaire publié sur CBSLocal, se référant au cas Etats-Unis vs. Rod Blagojevic, ex gouverneur de l’Illinois. Il s’agit d’une requête du tribunal de délivrer une assignation à comparaître du procès de Barack Obama, datée de 2010.

Certaines parties du texte sont masquées par des ratures noires. Toutefois, si vous copiez et collez un bloc de texte dans n’importe quel traitement de texte, vous pourrez le lire dans son intégralité.

Black boxes in PDF doesn't really work

Les ratures noires dans un PDF peuvent être utiles pour masquer des informations publiées, mais cette mesure peut être facilement contournée dans un format numérique

Fichiers à l’intérieur des fichiers

Les données des fichiers externes intégrées dans un document sont une toute autre histoire.

Pour montrer un exemple réel, nous avons cherché certains documents sur des sites web gouvernementaux, et avons examiné la déclaration de revenus de 2010 du Département de l’Éducation des États-Unis.

Nous avons téléchargé le fichier et désactivé la protection en lecture seule (qui ne nécessitait pas de mot de passe). Il existe un graphique en apparence normale à la page 41. Nous avons sélectionné « Modifier les données » dans le menu contextuel du graphique, en ouvrant finalement un fichier source Microsoft Excel intégré contenant toutes les données source.

Embedded Excel table in Word document

Voici un rapport dans un fichier Word, contenant un Excel doté d’une multitude de données sources pour cela et d’autres graphiques.

Il va sans dire que ces fichiers intégrés peuvent contenir n’importe quoi, y compris des tonnes d’informations privées, quiconque a publié le document doit avoir supposé que les données étaient inaccessibles.

Collecte des métadonnées

Le processus de collecte des métadonnées provenant d’un document appartenant à une organisation d’intérêt peut être automatisé à l’aide d’un logiciel tel qu’ElevenPaths de FOCA (Fingerprinting Organizations with Collected Archives).

FOCA peut trouver et télécharger des formats de documents (par exemple, .docx et .pdf), analyser leurs métadonnées, et découvrir de nombreux éléments à propos de l’entreprise, tels que le côté du logiciel du serveur qu’elle utilise, les identifiants et bien plus encore.

Nous devons cependant émettre une mise en garde ici : analyser des sites web avec de tels outils, même au profit de la recherche, peut être pris très au sérieux par des propriétaires de sites web ou même être qualifié de cybercrime.

Particularités enregistrées

Voici quelques particularités de métadonnées que tous les experts en informatique ne connaissent pas. Prenez le système de fichiers NTFS utilisé par Windows.

Fait 1. Si vous supprimez un fichier d’un dossier et que vous sauvegardez immédiatement un nouveau fichier avec le même nom dans le même dossier, la date de création sera la même que celle du fichier que vous avez supprimé.

Fait 2. En plus d’autres métadonnées, NTFS conserve la date du dernier accès au fichier. Toutefois, si vous ouvrez le fichier et vérifiez ensuite la date du dernier accès dans les propriétés du fichier, la date restera la même.

Vous devez penser que ces faits étranges sont juste des bugs, mais ils sont essentiellement des fonctionnalités enregistrées. Dans le premier cas, on parle de tunneling, qui est nécessaire pour activer la compatibilité du logiciel en arrière.  Par défaut, cet effet dure 15 secondes, au cours duquel le nouveau fichier obtient l’horodatage de création associé au fichier précédent (vous pouvez modifier l’intervalle dans les paramètres du système ou désactiver totalement le tunneling dans le journal des modifications). En réalité, l’intervalle par défaut était suffisant pour que je puisse tomber sur le tunneling deux fois par semaine rien qu’en faisant mon travail.

Le second cas est également enregistré : en commençant par Windows 7, par souci de performance Microsoft a désactivé l’horodatage automatisé pour l’heure lors du dernier accès. Vous pouvez activer cette fonction dans le registre. Toutefois, une fois qu’elle est activée, vous ne pouvez pas faire marche arrière pour corriger le problème ; le fichier ne garde pas les dates correctes (comme le prouve un éditeur de disque de bas niveau).

Nous espérons que les experts légistes sont conscients de ces spécificités.

D’ailleurs, les métadonnées de fichiers peuvent être altérées en utilisant des applications natives/du système d’exploitation par défaut et un logiciel spécial. Cela signifie que vous ne pouvez pas compter sur les métadonnées comme preuve dans un tribunal à moins qu’elles soient accompagnées d’éléments tels qu’un service de messagerie ou des registres de serveurs.

Métadonnées : Sécurité

Une fonction intégrée dans Microsoft Office appelée Document Inspector (Fichier-> Informations -> Inspecter-> Document sur Word 2016) montre à un utilisateur les données contenues dans un fichier. Dans une certaine mesure, ces données peuvent être supprimées sur demande, bien que les données ne soient pas intégrées (comme dans le rapport du Département de l’Éducation cité précédemment). Les utilisateurs devraient faire attention lorsqu’ils insèrent des graphiques et des diagrammes.

Adobe Acrobat possède une capacité similaire pour supprimer des métadonnées des fichiers.

Dans tous les cas, les systèmes de sécurité doivent gérer la prévention des fuites. Par exemple, nous avons le module DLP (Data Loss Prevention = prévention de la perte des données) dans Kaspersky Total Security for Business, Kaspersky Security pour les serveurs e-mail et Kaspersky Security pour les plateformes de collaboration. Ces produits peuvent filtrer des métadonnées confidentielles telles que le journal des modifications, les commentaires et des objets intégrés.

Bien sûr, la méthode idéale de prévention des fuites est d’avoir du personnel totalement responsable, averti et bien formé.

Conseils