Gli hacker usano testo nascosto per ingannare Google Gemini

I ricercatori della sicurezza hanno scoperto un nuovo metodo furtivo per manipolare l’assistente AI Gemini di Google nascondendo comandi malevoli nel codice delle email che Gemini segue inconsapevolmente.

Questi metodi di iniezione di prompt indiretta (IPI) consentono ai truffatori di piantare avvisi falsi all’interno di riassunti generati dall’AI, facendoli apparire come avvisi legittimi provenienti dallo stesso Google, portando infine gli utenti direttamente in trappole di phishing.

Come funziona l’exploit

A differenza delle tradizionali truffe di phishing che si basano su link o allegati sospetti, questa tecnica è molto più sottile, poiché il trucco risiede nel codice dell’email. Gli attaccanti nascondono istruzioni nelle email utilizzando testo invisibile — carattere bianco su sfondo bianco, caratteri di dimensione zero o elementi fuori schermo. Anche se rimangono invisibili all’occhio umano, Gemini li vede e li elabora completamente.

hacker che usano testo nascosto su Google Gemini

Una volta che il destinatario clicca su “Riassumi questa email” in Google Workspace, Gemini scansiona l’intero messaggio, comprese le sezioni nascoste. Se quelle parti nascoste contengono prompt malevoli, vengono incluse anche nell’output del riassunto.

Questo porta a un avviso di sicurezza falso ma convincente che esorta gli utenti a chiamare un numero di supporto o a intraprendere azioni urgenti. Poiché l’avviso sembra provenire dallo stesso Gemini, gli utenti potrebbero fidarsi di esso, rendendo l’attacco particolarmente pericoloso.

Exploit scoperto attraverso un programma di bug bounty

La vulnerabilità di iniezione di prompt in Google Gemini per Workspace è stata divulgata al programma di bug bounty 0din di Mozilla per strumenti di AI generativa dal ricercatore Marco Figueroa, Manager dei Programmi di Bug Bounty GenAI di Mozilla. La sua dimostrazione ha mostrato come un attaccante potrebbe incorporare istruzioni nascoste utilizzando direttive di stile come i tag o codice CSS, progettati per nascondere contenuti agli occhi umani, per ingannare Gemini.

Poiché Gemini tratta tali istruzioni come parte del prompt, finisce per ripeterle come se fossero parte del messaggio originale nel suo output di riassunto, senza rendersi conto che erano malevole.

Figueroa ha fornito un esempio di proof-of-concept per dimostrare come Gemini potrebbe essere ingannato a visualizzare un falso avviso di sicurezza, avvisando l’utente che la propria password di Gmail era stata compromessa e fornendo un numero di supporto fraudolento da chiamare.

hacker che usano testo nascosto su Google Gemini

Perché è importante

L’attacco è una forma di iniezione di prompt indiretta, in cui input malevoli sono sepolti all’interno di contenuti che l’AI dovrebbe riassumere. Questo è diventato un problema crescente man mano che l’AI generativa viene integrata nei flussi di lavoro quotidiani. Con Gemini integrato in Google Workspace—Gmail, Docs, Slides e Drive—qualsiasi sistema in cui l’assistente analizza il contenuto dell’utente è potenzialmente vulnerabile.

Ciò che lo rende più pericoloso è che questi riassunti possono sembrare molto convincenti. Se Gemini include un falso avviso di sicurezza, gli utenti potrebbero prenderlo sul serio poiché si fidano di Gemini come parte di Google Workspace senza rendersi conto che si tratta in realtà di un messaggio malevolo nascosto.

La strategia di difesa multilivello di Google

In risposta, Google ha implementato un sistema di difesa multilivello per Gemini progettato per rendere più difficili questi attacchi. Le misure includono:

Classificatori di machine learning per rilevare prompt malevoli
Sanitizzazione del Markdown per rimuovere formattazioni pericolose
Redazione di URL sospetti
Un framework di conferma dell’utente che aggiunge un checkpoint extra prima di eseguire compiti sensibili.
Notifiche per avvisare gli utenti quando viene rilevata un’iniezione di prompt

Google afferma di lavorare anche con ricercatori esterni e team rossi per affinare le proprie difese e implementare ulteriori protezioni nelle future versioni di Gemini.

“Stiamo costantemente rafforzando le nostre già robuste difese attraverso esercizi di red-teaming che addestrano i nostri modelli a difendersi contro questo tipo di attacchi avversari,” ha dichiarato un portavoce di Google a BleepingComputer in una dichiarazione.

Sebbene Google abbia dichiarato che non ci sono ancora prove che questa tecnica sia stata utilizzata in attacchi nel mondo reale, la scoperta è un chiaro avvertimento che anche i contenuti generati dall’AI, per quanto senza soluzione di continuità, possono ancora essere manipolati.

Ricevi i nuovi post nella tua casella di posta.