Vous êtes-vous déjà demandé comment nous savons à qui nous parlons au téléphone? Il s’agit bien évidemment de bien plus que le nom qui s’affiche à l’écran. Si nous entendons une voix inconnue lors d’un appel depuis un numéro enregistré, nous savons tout de suite que ce n’est pas normal. Pour savoir à qui on parle réellement, nous retenons inconsciemment le timbre, la manière de parler et l’intonation de la voix. Mais à quel point notre ouïe est-elle fiable à l’ère numérique de l’intelligence artificielle ? Comme le montre l’actualité, il ne faut pas toujours se fier à ce que l’on entend, car les voix peuvent être contrefaites : c’est ce qu’on appelle le deepfake.
Au secours, j’ai un problème
Au printemps 2023, des escrocs ont tenté d’extorquer de l’argent à une femme par téléphone en Arizona. Elle entendait la voix de sa fille de 15 ans implorant de l’aide avant qu’un inconnu ne s’empare du téléphone et ne demande une rançon, alors que les cris de sa fille étaient encore audibles en bruit de fond. La mère était convaincue que la voix était bien celle de son enfant. Heureusement, elle se rendit compte rapidement que sa fille allait très bien, elle en a conclu qu’on avait tenté de l’escroquer.
Il n’est pas possible de prouver à 100 % que les escrocs ont utilisé un deepfake pour imiter la voix de l’adolescente. Il s’agissait peut-être d’une escroquerie plus traditionnelle, la qualité de l’appel, le caractère inattendu de la situation, le stress et l’imagination de la mère ayant tous contribué à lui faire croire qu’elle avait entendu quelque chose qu’elle n’avait pas entendu. Mais même si les technologies des réseaux neuronaux n’ont pas été utilisées dans ce cas, les deepfakes sont réels, et à mesure que leur développement se poursuit, ils deviennent de plus en plus convaincants et dangereux. Pour lutter contre l’exploitation des technologies deepfake par des criminels, nous devons comprendre leur fonctionnement.
Qu’est-ce qu’un « deepfake » ?
L’intelligence artificielle Deepfake ( « deep learning » + « fake » ) s’est développée à un rythme rapide au cours des dernières années. L’apprentissage automatique peut être utilisé pour créer des contrefaçons convaincantes d’images, de vidéos ou de contenus audio. Par exemple, les réseaux neuronaux peuvent être utilisés dans les photos et les vidéos pour remplacer le visage d’une personne par une autre tout en préservant les expressions faciales et l’éclairage. Alors qu’au départ, ces contrefaçons étaient de mauvaise qualité et faciles à repérer, les résultats sont devenus si convaincants au fur et à mesure du développement des algorithmes qu’il est désormais difficile de les distinguer de la réalité. En 2022, la première émission télévisée au monde sur les deepkfake au est sortie en Russie, où les deepfakes de Jason Statham, Margot Robbie, Keanu Reeves et Robert Pattinson incarnent les personnages principaux.
Conversion vocale
Mais aujourd’hui, notre attention se porte sur la technologie utilisée pour créer des deepfake vocaux. C’est ce que l’on appelle la conversion vocale (ou le « clonage vocal » si vous en créez une copie numérique complète). La conversion vocale s’appuie sur des autoencodeurs, un type de réseau neuronal qui comprime d’abord les données d’entrée (partie de l’encodeur) en une représentation interne compacte, puis apprend à les décompresser à partir de cette représentation (partie du décodeur) pour restaurer les données d’origine. De cette façon, le modèle apprend à présenter les données dans un format compressé tout en mettant en évidence les informations les plus importantes.
Pour créer des deepfake vocaux, deux enregistrements audio sont introduits dans le modèle, la voix du deuxième enregistrement étant convertie dans le premier. L’encodeur de contenu permet de déterminer le contenu du premier enregistrement et l’encodeur du locuteur d’extraire les principales caractéristiques de la voix du deuxième enregistrement, c’est-à-dire la manière dont l’autre personne s’exprime. Les représentations compressées de ce qui doit être dit et de la manière dont cela est dit sont combinées, puis le résultat est généré à l’aide du décodeur. Ainsi, le contenu du premier enregistrement est dit par la personne du deuxième enregistrement.
D’autres approches utilisent des codeurs automatiques, par exemple celles qui utilisent des réseaux antagonistes génératifs (GAN) ou des modèles de diffusion. La recherche sur la fabrication de deepfake est soutenue en particulier par l’industrie cinématographique. Quand on y pense, avec les deepfake audio et vidéo, il est possible de remplacer les visages des acteurs dans les films et les émissions de télévision, et de doubler des films avec des expressions faciales synchronisées dans n’importe quelle langue.
Le processus
Pendant notre recherche des technologies deepfake, on s’est posé la question suivante : à quel point est-il compliqué de faire de sa propre voix un deepfake ? Il s’avère qu’il existe de nombreux outils libres pour faire de la conversion vocale, mais ils ne permettent pas d’obtenir un résultat de très bonne qualité. Il faut savoir programmer en Pythoon et avoir de bonnes compétences en matière de traitement, et même dans ce cas, la qualité est loin d’être idéale. En plus de l’open source, il existe des solutions propriétaires et payantes.
Par exemple, début 2023, Microsoft a annoncé la sortie d’un algorithme capable de reproduire une voix humaine à partir d’une piste audio de trois secondes seulement ! Ce modèle fonctionne également en plusieurs langues, vous pouvez alors vous entendre parler une langue étrangère. Tout cela semble prometteur, mais pour l’instant, il n’en est qu’au stade de la recherche. C’est là qu’intervient la plateforme ElevenLabs. Elle permet aux utilisateurs de créer des deepfake vocaux très facilementrt : il suffit de télécharger un enregistrement audio de la voix et des mots à prononcer, et le tour est joué. Bien entendu, dès que la nouvelle s’est répandue, les gens ont commencé à utiliser cette technologie de plusieurs manières.
Le combat d’Hermione et une banque trop confiante
Conformément à la loi de Godwin, Emma Watson a dû lire Mein Kampf, et un autre utilisateur s’est servi de la technologie ElevenLabs pour « pirater » son propre compte bancaire. Vous trouvez ça flippant ? Nous aussi, surtout si l’on ajoute à cela les histoires d’horreur qui circulent sur les escrocs qui recueillent des échantillons de voix par téléphone en demandant aux gens de dire « oui » ou « confirmer » lorsqu’ils se font passer pour une banque, une agence gouvernementale ou un service de sondage, et qui volent ensuite de l’argent en se servant de l’autorisation vocale.
Mais en réalité, la situation n’est pas si mauvaise. Tout d’abord, il faut environ cinq minutes d’enregistrements audio pour créer une voix artificielle dans ElevenLabs, donc un simple « oui » ne suffit pas Ensuite, comme les banques ont également connaissance de ces escroqueries, vous ne pouvez utiliser la commande vocale que pour lancer certaines opérations qui n’ont pas de rapport avec le transfert de fonds (par exemple, vérifier le solde de votre compte). Par conséquent, on peut pas voler de l’argent de cette manière.
Il faut dire qu’ElevenLabs a réagi rapidement au problème en réécrivant les règles du service, en interdisant aux utilisateurs gratuits (c’est-à-dire anonymes) de créer des deepfake à partir des pistes audio importées de leurs propres voix et en bloquant les comptes ayant reçu des plaintes pour « contenu choquant ».
Bien que ces mesures soient utiles, elles ne résolvent pas le problème de l’utilisation d’imitations vocales à des fins suspectes.
Autres utilisations des deepfake dans les escroqueries
La technologie Deepfake est en soi inoffensive, mais entre les mains d’escrocs, elle peut devenir un outil dangereux offrant de nombreuses possibilités de tromperie, de diffamation ou de désinformation. Heureusement, il n’y a pas eu d’affaires à grande échelle d’escroqueries utilisant des voix modifiées, mais on note plusieurs cas très médiatisés de deepfakes vocaux.
En 2019, des escrocs ont utilisé cette technologie pour arnaquer une entreprise de production d’énergie au Royaume-Uni. Au cours d’une conversation téléphonique, l’escroc s’est fait passer pour le PDG de la société mère allemande de l’entreprise et a demandé le virement urgent de 220 000 € (243 000 $) sur le compte d’un fournisseur. Une fois le paiement effectué, l’escroc a appelé à deux autres reprises : la première fois pour rassurer les employés du bureau britannique et leur signaler que la société mère avait déjà envoyé un remboursement, et la deuxième pour demander un autre virement. Les trois fois, le PDG britannique était tout à fait certain de parler avec son patron, car il reconnaissait à la fois son accent allemand, le ton et la manière de s’exprimer. Le deuxième virement n’a pas été émis uniquement parce que l’escroc s’est trompé et a appelé d’un numéro autrichien au lieu d’un numéro allemand, ce qui a éveillé les soupçons du PDG britannique.
Un an plus tard, en 2020, des escrocs ont utilisé des deepfake pour voler jusqu’à 35 000 000 $ à une société japonaise anonyme (le nom de la société et le montant total des objets volés n’ont pas été révélés par l’enquête).
On ne connaît pas les solutions (open source, payantes ou même les leurs) que les escrocs ont utilisé pour simuler la voix, mais dans les deux affaires ci-dessus, les entreprises ont clairement et fortement impactées par la fraude au deepfake.
Étapes suivantes
Les avis divergent quant à l’avenir des » deepfakes « . Actuellement, la plupart de ces technologies sont entre les mains de grandes entreprises et leur disponibilité pour le public est limitée. Mais comme le montre l’histoire des modèles génératifs beaucoup plus populaires tels que DALL-E, Midjourney et Stable Diffusion, et plus encore celle des grands modèles linguistiques (ChatGPT, vous connaissez ?), des technologies similaires pourraient bien être mise à disposition dans le domaine public dans un avenir proche. C’est ce que confirme une récente fuite de correspondance interne de Google, dans laquelle des représentants du géant d’Internet craignent de perdre la course à l’IA au profit de solutions ouvertes. Il en résultera évidemment une augmentation de l’utilisation des deepfake vocaux, notamment à des fins frauduleuses.
L’étape la plus prometteuse dans le développement des deepfake est la génération en temps réel, qui assurera la croissance explosive des deepfake (et de la fraude qui en découle). Vous imaginez un appel vidéo avec une personne dont le visage et la voix sont totalement faux ? Néanmoins, ce niveau de traitement des données nécessite d’énormes ressources disponibles uniquement pour les grandes entreprises, les meilleures technologies resteront privées et les fraudeurs ne parviendront pas à suivre le rythme des professionnels. Le niveau de qualité élevé permettra également aux utilisateurs d’apprendre à reconnaître facilement les imitations.
Comment vous protéger ?
Revenons à notre toute première question : pouvons-nous faire confiance aux voix que nous entendons (si ce ne sont pas les voix dans notre tête) ? Il est sans doute excessif d’être paranoïaque en permanence et d’inventer des mots de code secrets à utiliser avec ses amis et sa famille ; toutefois, dans des situations plus graves, une telle paranoïa peut s’avérer appropriée. Si tout évolue selon le scénario pessimiste, la technologie deepfake entre les mains d’escrocs pourrait devenir une arme redoutable à l’avenir, mais il est encore temps de se préparer et de mettre au point des méthodes fiables de protection contre les contrefaçons : les recherches sur les deepfake sont déjà nombreuses, et les grandes entreprises développent des solutions de sécurité. En fait, nous avons déjà abordé en détail les moyens de lutter contre les deepfake vidéo dans cet article.
Pour l’instant, la protection contre les contrefaçons générées par IA n’en est qu’à ses débuts. Il est donc important de garder à l’esprit que les deepfake ne sont qu’une autre forme d’ingénierie sociale avancée. Le risque d’être victime d’une fraude de ce type est faible, mais il existe tout de même, et il vaut donc la peine de le connaître et de le garder à l’esprit. Si vous recevez un appel étrange, prêtez attention à la qualité du son. Le ton est-il monotone, inintelligible, ou y a-t-il des bruits inhabituels ? Vérifiez toujours les informations par d’autres moyens et n’oubliez pas que la surprise et n’oubliez pas que les escrocs comptent le plus sur la surprise et la panique.