Les hackers utilisent du texte caché pour tromper Google Gemini

Des chercheurs en sécurité ont découvert une nouvelle méthode discrète pour manipuler l’assistant AI Gemini de Google en cachant des commandes malveillantes dans le code des e-mails que Gemini suit sans le savoir.

Ces méthodes d’injection de prompt indirecte (IPI) permettent aux escrocs de planter de fausses alertes à l’intérieur des résumés générés par l’IA, les faisant apparaître comme des avertissements légitimes de Google lui-même, conduisant finalement les utilisateurs directement dans des pièges de phishing.

Comment fonctionne l’exploitation

Contrairement aux escroqueries de phishing traditionnelles qui reposent sur des liens ou des pièces jointes douteux, cette technique est beaucoup plus subtile, car le truc réside dans le code de l’e-mail. Les attaquants cachent des instructions dans les e-mails en utilisant du texte invisible — police blanche sur fond blanc, polices de taille zéro, ou éléments hors écran. Bien qu’ils restent invisibles à l’œil humain, Gemini les voit et les traite entièrement.

hackers utilisant du texte caché sur Google Gemini

Une fois que le destinataire clique sur « Résumer cet e-mail » dans Google Workspace, Gemini scanne l’intégralité du message, y compris les sections cachées. Si ces parties cachées contiennent des prompts malveillants, elles sont également incluses dans la sortie du résumé.

Cela aboutit à une fausse alerte de sécurité convaincante incitant les utilisateurs à appeler un numéro de support ou à agir de toute urgence. Comme l’alerte semble provenir de Gemini lui-même, les utilisateurs peuvent lui faire confiance, rendant l’attaque particulièrement dangereuse.

Exploitation découverte grâce à un programme de bug bounty

La vulnérabilité d’injection de prompt dans Google Gemini pour Workspace a été révélée au programme de bug bounty 0din de Mozilla pour les outils d’IA générative par le chercheur Marco Figueroa, responsable des programmes de bug bounty GenAI chez Mozilla. Sa démonstration a montré comment un attaquant pouvait intégrer des instructions cachées en utilisant des directives de style comme des balises ou du code CSS, qui sont conçues pour cacher le contenu des yeux humains, pour tromper Gemini.

Comme Gemini considère ces instructions comme faisant partie du prompt, il finit par les répéter comme si elles faisaient partie du message original dans sa sortie de résumé, sans réaliser qu’elles étaient malveillantes.

Figueroa a fourni un exemple de preuve de concept pour démontrer comment Gemini pouvait être trompé pour afficher une fausse alerte de sécurité, avertissant l’utilisateur que son mot de passe Gmail avait été compromis et fournissant un numéro de support frauduleux à appeler.

hackers utilisant du texte caché sur Google Gemini

Pourquoi cela importe

L’attaque est une forme d’injection de prompt indirecte, où une entrée malveillante est enfouie dans le contenu que l’IA est censée résumer. Cela devient une préoccupation croissante à mesure que l’IA générative s’intègre dans les flux de travail quotidiens. Avec Gemini intégré dans Google Workspace—Gmail, Docs, Slides et Drive—tout système où l’assistant analyse le contenu de l’utilisateur est potentiellement vulnérable.

Ce qui rend cela plus dangereux, c’est que ces résumés peuvent sembler très convaincants. Si Gemini inclut un faux avertissement de sécurité, les utilisateurs pourraient le prendre au sérieux car ils font confiance à Gemini en tant que partie de Google Workspace sans réaliser qu’il s’agit en réalité d’un message malveillant caché.

La stratégie de défense multicouche de Google

En réponse, Google a déployé un système de défense multicouche pour Gemini qui est conçu pour rendre ces attaques plus difficiles à réaliser. Les mesures comprennent :

Classificateurs d’apprentissage automatique pour détecter les prompts malveillants
Assainissement de Markdown pour éliminer les formats dangereux
Rédaction d’URL suspectes
Un cadre de confirmation utilisateur qui ajoute un point de contrôle supplémentaire avant d’exécuter des tâches sensibles.
Notifications pour alerter les utilisateurs lorsqu’une injection de prompt est détectée

Google déclare également travailler avec des chercheurs externes et des équipes de red pour affiner ses défenses et mettre en œuvre des protections supplémentaires dans les futures versions de Gemini.

« Nous renforçons constamment nos défenses déjà robustes grâce à des exercices de red-teaming qui entraînent nos modèles à se défendre contre ces types d’attaques adversariales », a déclaré un porte-parole de Google à BleepingComputer dans un communiqué.

Bien que Google ait déclaré qu’il n’y avait pas encore de preuves de l’utilisation de cette technique dans des attaques réelles, la découverte est un avertissement clair que même le contenu généré par l’IA, peu importe à quel point il est fluide, peut encore être manipulé.

Recevez de nouveaux articles dans votre boîte de réception.