Hacker nutzen versteckten Text, um Google Gemini auszutricksen

Sicherheitsforscher haben eine heimliche neue Methode entdeckt, um Googles Gemini KI-Assistenten zu manipulieren, indem sie bösartige Befehle im E-Mail-Code verstecken, denen Gemini unwissentlich folgt.

Diese indirekten Prompt-Injection (IPI) Methoden ermöglichen es Betrügern, gefälschte Warnungen in AI-generierten Zusammenfassungen zu platzieren, sodass sie wie legitime Warnungen von Google selbst erscheinen, was die Nutzer schließlich direkt in Phishing-Fallen führt.

Wie der Exploit funktioniert

Im Gegensatz zu traditionellen Phishing-Betrügereien, die auf dubiose Links oder Anhänge angewiesen sind, ist diese Technik viel subtiler, da der Trick im Code der E-Mail liegt. Angreifer verstecken Anweisungen in E-Mails, indem sie unsichtbaren Text verwenden – weiße Schrift auf weißem Hintergrund, Schriftarten mit null Größe oder Elemente außerhalb des Bildschirms. Obwohl sie für das menschliche Auge unsichtbar bleiben, sieht Gemini sie und verarbeitet sie vollständig.

Hacker nutzen versteckten Text auf Google Gemini

Sobald der Empfänger auf „Diese E-Mail zusammenfassen“ in Google Workspace klickt, scannt Gemini die gesamte Nachricht, einschließlich der versteckten Abschnitte. Wenn diese versteckten Teile bösartige Aufforderungen enthalten, werden sie ebenfalls in die Zusammenfassungs-Ausgabe aufgenommen.

Dies führt zu einer gefälschten, aber überzeugenden Sicherheitswarnung, die die Nutzer auffordert, eine Support-Telefonnummer anzurufen oder dringend zu handeln. Da die Warnung anscheinend von Gemini selbst stammt, könnten die Nutzer ihr vertrauen, was den Angriff besonders gefährlich macht.

Exploit durch ein Bug-Bounty-Programm entdeckt

Die Prompt-Injection-Schwachstelle in Google Gemini für Workspace wurde im Rahmen von Mozillas 0din Bug-Bounty-Programm für generative KI-Tools von Forscher Marco Figueroa, GenAI Bug Bounty Programs Manager bei Mozilla, offengelegt. Seine Demonstration zeigte, wie ein Angreifer versteckte Anweisungen mithilfe von Styling-Direktiven wie -Tags oder CSS-Code einbetten könnte, die dazu gedacht sind, Inhalte vor menschlichen Augen zu verbergen, um Gemini auszutricksen.

Da Gemini solche Anweisungen als Teil des Prompts behandelt, wiederholt es sie in seiner Zusammenfassungs-Ausgabe, als wären sie Teil der ursprünglichen Nachricht, ohne zu erkennen, dass sie bösartig sind.

Figueroa lieferte ein Proof-of-Concept-Beispiel, um zu demonstrieren, wie Gemini dazu gebracht werden könnte, eine gefälschte Sicherheitswarnung anzuzeigen, die den Nutzer warnt, dass sein Gmail-Passwort kompromittiert wurde, und eine betrügerische Supportnummer bereitstellt.

Hacker nutzen versteckten Text auf Google Gemini

Warum das wichtig ist

Der Angriff ist eine Form der indirekten Prompt-Injection, bei der bösartige Eingaben innerhalb von Inhalten verborgen sind, die die KI zusammenfassen soll. Dies ist zu einem wachsenden Anliegen geworden, da generative KI in die täglichen Arbeitsabläufe integriert wird. Mit Gemini, das in Google Workspace – Gmail, Docs, Slides und Drive – integriert ist, ist jedes System, in dem der Assistent Benutzerinhalte analysiert, potenziell anfällig.

Was es gefährlicher macht, ist, dass diese Zusammenfassungen sehr überzeugend erscheinen können. Wenn Gemini eine gefälschte Sicherheitswarnung enthält, könnten die Nutzer sie ernst nehmen, da sie Gemini als Teil von Google Workspace vertrauen, ohne zu erkennen, dass es sich tatsächlich um eine versteckte bösartige Nachricht handelt.

Googles mehrschichtige Verteidigungsstrategie

Als Reaktion darauf hat Google ein mehrschichtiges Verteidigungssystem für Gemini eingeführt, das darauf ausgelegt ist, diese Angriffe schwieriger durchzuführen. Zu den Maßnahmen gehören:

Maschinenlernklassifikatoren, um bösartige Aufforderungen zu erkennen
Markdown-Säuberung, um gefährliche Formatierungen zu entfernen
Verdächtige URL-Redaktion
Ein Benutzebestätigungsrahmen, der einen zusätzlichen Kontrollpunkt hinzufügt, bevor sensible Aufgaben ausgeführt werden.
Benachrichtigungen, um die Nutzer zu warnen, wenn eine Prompt-Injection erkannt wird

Google sagt, dass es auch mit externen Forschern und Red-Teams zusammenarbeitet, um seine Verteidigungen zu verfeinern und zusätzliche Schutzmaßnahmen in zukünftigen Gemini-Versionen zu implementieren.

„Wir härten ständig unsere bereits robusten Verteidigungen durch Red-Teaming-Übungen, die unsere Modelle darauf trainieren, sich gegen diese Arten von gegnerischen Angriffen zu verteidigen“, sagte ein Google-Sprecher gegenüber BleepingComputer in einer Erklärung.

Während Google erklärt hat, dass es bisher keine Hinweise darauf gibt, dass diese Technik in realen Angriffen verwendet wurde, ist die Entdeckung eine klare Warnung, dass selbst KI-generierte Inhalte, egal wie nahtlos, immer noch manipuliert werden können.

Erhalte neue Beiträge in deinem Posteingang.