Un article de la revue Science publié mi-janvier décrit une méthode originale pour surveiller les utilisateurs de smartphones via leur capteur de lumière ambiante. Ce module est intégré à tous les smartphones et toutes les tablettes, ainsi qu’à de nombreux ordinateurs portables et téléviseurs. Sa tâche principale consiste à détecter la quantité de lumière ambiante dans l’environnement dans lequel l’appareil se trouve et d’ajuster la luminosité de l’écran en conséquence.
Mais avant de poursuivre, il convient d’expliquer pourquoi un opérateur malveillant aurait recours à un outil non adapté à la capture d’images au lieu d’utiliser l’appareil photo standard de l’appareil ciblé. Il faut savoir que ces capteurs » non adaptés » ne sont, en général, pas protégés du tout. Imaginons qu’un pirate informatique incite un utilisateur à installer un programme malveillant sur son smartphone. Le programme malveillant aura du mal à accéder aux modules souvent ciblés, comme le microphone ou l’appareil photo. Mais accéder au capteur de lumière ? C’est simple comme bonjour !
Ainsi, les chercheurs ont démontré que ce capteur de lumière ambiante peut être utilisé à la place de l’appareil photo, par exemple pour obtenir un cliché de la main de l’utilisateur en train de saisir un code PIN sur un clavier virtuel. En théorie, l’analyse de ces données permet ensuite de reconstituer le mot de passe proprement dit. Cet article explique les tenants et les aboutissants de cette problématique de façon simple.
Le capteur de lumière relève d’une technologie assez basique. Il s’agit d’une cellule photoélectrique sensible à la lumière, qui permet de mesurer l’intensité de la lumière ambiante plusieurs fois par seconde. Les appareils photo numériques utilisent des capteurs de lumière très similaires (bien que plus petits), mais en comptent plusieurs millions. L’objectif projette une image sur cette matrice de cellules photoélectriques, la luminosité de chaque élément est mesurée, et il en résulte une photographie numérique. Ainsi, on pourrait décrire le capteur de lumière comme l’appareil photo numérique le plus basique qui soit, sa résolution étant d’exactement un pixel. Mais comment une telle chose peut-elle capturer ce qui se passe autour de l’appareil ?
Les chercheurs ont utilisé le principe de réciprocité de Helmholtz, formulé au milieu du XIXe siècle. Ce principe est largement utilisé en infographie, par exemple, où il simplifie grandement les calculs. En 2005, ce principe a également servi de base à une méthode proposée appelée « double photographie ». Prenons une illustration tirée de cette proposition pour mieux comprendre :
Imaginez que vous photographiez des objets sur une table. Une lampe éclaire ces objets, la lumière réfléchie atteint l’objectif de l’appareil photo, et il en résulte une photographie. Rien d’extraordinaire. Dans l’illustration ci-dessus, l’image de gauche est précisément cela : une photo ordinaire. Ensuite, de manière très simplifiée, les chercheurs ont commencé à modifier la luminosité de la lampe et à enregistrer les changements d’éclairage. Ils ont ainsi recueilli suffisamment d’informations pour reconstituer l’image de droite, considérée du point de vue de la lampe. Il n’y a pas et il n’y a jamais eu d’appareil photo à cet endroit-là, mais grâce à ces mesures, la scène a pu être reconstituée avec succès.
Le plus intéressant est que cette technique ne nécessite même pas d’appareil photo. Il suffit d’utiliser une simple photorésistance… comme celle d’un capteur de lumière ambiante. La photorésistance (ou « appareil photo à un seul pixel ») mesure les changements au niveau de la lumière réfléchie par les objets, et ces données sont ensuite utilisées pour obtenir une photographie. La qualité de l’image est médiocre et de nombreuses mesures doivent être prises, ces dernières se comptant par centaines ou par milliers.
Revenons-en à l’étude et au capteur de lumière. Les auteurs de l’article ont utilisé une tablette Samsung Galaxy View assez grande, avec un écran 17 pouces. Différents motifs rectangulaires noirs et blancs ont été affichés sur l’écran de la tablette. Une main de mannequin a été positionnée face à l’écran, jouant le rôle d’un utilisateur en train de saisir quelque chose sur le clavier tactile de la tablette. Le capteur de lumière a enregistré les variations de luminosité. Plusieurs centaines de mesures comme celle-ci ont permis de créer une image de la main de mannequin. Autrement dit, les auteurs ont appliqué le principe de réciprocité de Helmholtz pour obtenir une photographie de la main, considérée du point de vue de l’écran. Les chercheurs ont transformé de manière efficace l’écran de la tablette en un appareil photo de très mauvaise qualité.
Certes, il ne s’agit pas de l’image la plus nette qui soit. L’image en haut à gauche montre ce qui devait être capturé : d’une part, la paume ouverte de la main de mannequin ; d’autre part, la façon dont » l’utilisateur » semble appuyer sur quelque chose à l’écran. Les images au centre représentent une » photo » reconstituée avec une résolution 32×32, dans laquelle presque rien n’est visible. Cela est dû à un bruit trop important dans les données. Cependant, à l’aide d’algorithmes de machine learning, le bruit a été filtré pour produire les images de droite, où l’on peut distinguer clairement les deux positions de la main. Les auteurs de l’article donnent d’autres exemples de gestes typiques que les utilisateurs font lorsqu’ils touchent l’écran tactile d’une tablette. Ou plutôt, des exemples de la façon dont ils ont réussi à « photographier » ces gestes :
Peut-on donc appliquer cette méthode dans la pratique ? Est-il possible de surveiller les interactions d’utilisateurs avec l’écran tactile d’une tablette ou d’un smartphone ? La manière dont ils saisissent du texte sur le clavier tactile ? La manière dont ils saisissent les informations de leur carte de crédit ? La manière dont ils ouvrent les applications ? Heureusement, ce n’est pas si simple. Remarquez les légendes qui accompagnent les « photographies » dans l’illustration ci-dessus. Elles montrent à quel point cette méthode prend du temps. Dans le meilleur des cas, les chercheurs ont pu reconstituer une « photo » de la main en un peu plus de trois minutes. Il a fallu 17 minutes pour capturer l’image de l’illustration précédente. Il est impossible d’assurer une surveillance en temps réel à une si faible allure. La raison pour laquelle la plupart des expériences comportaient une main de mannequin est également claire à présent : un être humain ne peut tout simplement pas garder sa main immobile aussi longtemps.
Cependant, il ne faut pas exclure une éventuelle amélioration de cette méthode. Considérons le pire des scénarios : si chaque image de main peut être obtenue non pas en trois minutes mais, disons, en une demi-seconde, si l’affichage à l’écran ne consiste pas en d’étranges formes en noir et blanc mais en une vidéo, une série d’images ou une animation qui intéresse l’utilisateur, et si l’utilisateur fait quelque chose qui vaut la peine d’être espionné… alors une telle cyberattaque serait peut-être justifiée. Cependant, même dans ce cas, cela n’aurait pas énormément de sens. Tous les efforts des chercheurs sont sapés par le fait que si un pirate informatique parvient à introduire un programme malveillant dans l’appareil de sa victime, il dispose alors de nombreux moyens plus efficaces pour l’inciter à saisir un mot de passe ou un numéro de carte de crédit. C’est peut-être la première fois depuis que nous abordons de tels sujets (exemples : un, deux, trois, quatre) que nous avons du mal à imaginer un scénario réel pour ce type de cyberattaques.
Nous ne pouvons que nous émerveiller devant la beauté de la méthode proposée. Cette étude nous rappelle une fois de plus que les appareils en apparence familiers et discrets qui nous entourent peuvent cacher des fonctionnalités insolites et méconnues. Cela étant dit, pour les personnes qui s’inquiètent d’une éventuelle atteinte à leur vie privée, la solution est simple. La mauvaise qualité de ces images est due au fait que le capteur de lumière prend des mesures assez peu fréquemment, c’est-à-dire 10 à 20 fois par seconde. Les données de sortie manquent également de précision. Cependant, ce niveau de mesures n’est pertinent que pour transformer le capteur en appareil photo. Pour la tâche principale, à savoir la mesure de la lumière ambiante, ce rythme est même trop élevé. Nous pouvons donc « grossir » encore plus les données en les transmettant, par exemple, 5 fois par seconde au lieu de 20. Pour adapter la luminosité de l’écran à la lumière ambiante, cela suffit amplement. Mais l’espionnage via le capteur, qui était déjà improbable, deviendrait alors impossible. Et c’est sans doute mieux ainsi.