Hackers Usam Texto Oculto Para Enganar o Google Gemini

Pesquisadores de segurança descobriram um novo método furtivo para manipular o assistente de IA Gemini do Google, escondendo comandos maliciosos no código de e-mail que o Gemini segue sem saber.

Esses métodos de injeção de prompt indireta (IPI) permitem que golpistas plantem alertas falsos dentro de resumos gerados por IA, fazendo-os parecer avisos legítimos do próprio Google, levando os usuários diretamente a armadilhas de phishing.

Como o Exploit Funciona

Diferente dos golpes de phishing tradicionais que dependem de links ou anexos suspeitos, essa técnica é muito mais sutil, pois o truque está no código do e-mail. Os atacantes escondem instruções em e-mails usando texto invisível — fonte branca em um fundo branco, fontes de tamanho zero ou elementos fora da tela. Embora permaneçam invisíveis ao olho humano, o Gemini os vê e os processa completamente.

hackers usando texto oculto no Google Gemini

Uma vez que o destinatário clica em “Resumir este e-mail” no Google Workspace, o Gemini escaneia toda a mensagem, incluindo as seções ocultas. Se essas partes ocultas contêm prompts maliciosos, eles também são incluídos na saída do resumo.

Isso resulta em um alerta de segurança falso, mas convincente, instando os usuários a ligar para um número de suporte ou tomar uma ação urgente. Como o alerta parece vir do próprio Gemini, os usuários podem confiar nele, tornando o ataque especialmente perigoso.

Exploit Descoberto Através de um Programa de Recompensa por Bugs

A vulnerabilidade de injeção de prompt no Google Gemini para Workspace foi divulgada ao programa de recompensa por bugs 0din da Mozilla para ferramentas de IA generativa pelo pesquisador Marco Figueroa, Gerente de Programas de Recompensa por Bugs da GenAI na Mozilla. Sua demonstração mostrou como um atacante poderia embutir instruções ocultas usando diretivas de estilo como tags ou código CSS, que são projetados para esconder conteúdo dos olhos humanos, para enganar o Gemini.

Como o Gemini trata essas instruções como parte do prompt, acaba repetindo-as como se fossem parte da mensagem original em sua saída de resumo, sem perceber que eram maliciosas.

Figueroa forneceu um exemplo de prova de conceito para demonstrar como o Gemini poderia ser enganado para exibir um alerta de segurança falso, avisando o usuário de que sua senha do Gmail havia sido comprometida e fornecendo um número de suporte fraudulento para ligar.

hackers usando texto oculto no Google Gemini

Por Que Isso Importa

O ataque é uma forma de injeção de prompt indireta, onde a entrada maliciosa é enterrada dentro do conteúdo que a IA deve resumir. Isso se tornou uma preocupação crescente à medida que a IA generativa se integra aos fluxos de trabalho diários. Com o Gemini integrado ao Google Workspace — Gmail, Docs, Slides e Drive — qualquer sistema onde o assistente analisa o conteúdo do usuário é potencialmente vulnerável.

O que torna isso mais perigoso é que esses resumos podem parecer muito convincentes. Se o Gemini incluir um aviso de segurança falso, os usuários podem levá-lo a sério, pois confiam no Gemini como parte do Google Workspace, sem perceber que é na verdade uma mensagem maliciosa oculta.

Estratégia de Defesa em Múltiplas Camadas do Google

Em resposta, o Google lançou um sistema de defesa em camadas para o Gemini que é projetado para tornar esses ataques mais difíceis de serem realizados. As medidas incluem:

Classificadores de aprendizado de máquina para detectar prompts maliciosos
Sanitização de Markdown para remover formatações perigosas
Redação de URLs suspeitas
Um quadro de confirmação do usuário que adiciona um ponto de verificação extra antes de executar tarefas sensíveis.
Notificações para alertar os usuários quando uma injeção de prompt é detectada

O Google afirma que também está trabalhando com pesquisadores externos e equipes de ataque para aprimorar suas defesas e implementar proteções adicionais nas futuras versões do Gemini.

“Estamos constantemente fortalecendo nossas defesas já robustas por meio de exercícios de red-teaming que treinam nossos modelos para defender contra esses tipos de ataques adversariais”, disse um porta-voz do Google ao BleepingComputer em uma declaração.

Embora o Google tenha afirmado que ainda não há evidências de que essa técnica esteja sendo usada em ataques do mundo real, a descoberta é um claro aviso de que mesmo o conteúdo gerado por IA, não importa quão perfeito, ainda pode ser manipulado.

Receba novas postagens na sua caixa de entrada