Los hackers utilizan texto oculto para engañar a Google Gemini

Los investigadores de seguridad han descubierto un nuevo método sigiloso para manipular al asistente de IA Gemini de Google al ocultar comandos maliciosos en el código de los correos electrónicos que Gemini sigue sin saberlo.

Estos métodos de inyección de indicaciones indirectas (IPI) permiten a los estafadores insertar alertas falsas dentro de resúmenes generados por IA, haciéndolos parecer advertencias legítimas de Google, lo que eventualmente lleva a los usuarios directamente a trampas de phishing.

Cómo funciona la explotación

A diferencia de las estafas de phishing tradicionales que dependen de enlaces o archivos adjuntos sospechosos, esta técnica es mucho más sutil, ya que el truco radica en el código del correo electrónico. Los atacantes ocultan instrucciones en los correos electrónicos utilizando texto invisible: fuente blanca sobre un fondo blanco, fuentes de tamaño cero o elementos fuera de pantalla. Aunque permanecen invisibles para el ojo humano, Gemini sí los ve y los procesa completamente.

hackers utilizando texto oculto en Google Gemini

Una vez que el destinatario hace clic en “Resumir este correo” en Google Workspace, Gemini escanea todo el mensaje, incluidas las secciones ocultas. Si esas partes ocultas contienen indicaciones maliciosas, también se incluyen en la salida del resumen.

Esto resulta en una alerta de seguridad falsa pero convincente que insta a los usuarios a llamar a un número de soporte o tomar medidas urgentes. Dado que la alerta parece provenir de Gemini mismo, los usuarios pueden confiar en ella, lo que hace que el ataque sea especialmente peligroso.

Explotación descubierta a través de un programa de recompensas por errores

La vulnerabilidad de inyección de indicaciones en Google Gemini para Workspace fue divulgada al programa de recompensas por errores 0din de Mozilla para herramientas de IA generativa por el investigador Marco Figueroa, Gerente de Programas de Recompensas por Errores de GenAI en Mozilla. Su demostración mostró cómo un atacante podría incrustar instrucciones ocultas utilizando directivas de estilo como etiquetas o código CSS, que están diseñadas para ocultar contenido de los ojos humanos, para engañar a Gemini.

Como Gemini trata tales instrucciones como parte de la indicación, termina repitiéndolas como si fueran parte del mensaje original en su salida de resumen, sin darse cuenta de que eran maliciosas.

Figueroa proporcionó un ejemplo de prueba de concepto para demostrar cómo se podría engañar a Gemini para que mostrara una alerta de seguridad falsa, advirtiendo al usuario que su contraseña de Gmail había sido comprometida y proporcionando un número de soporte fraudulento para llamar.

hackers utilizando texto oculto en Google Gemini

Por qué esto es importante

El ataque es una forma de inyección de indicaciones indirectas, donde la entrada maliciosa está enterrada dentro del contenido que la IA se supone que debe resumir. Esto se ha convertido en una preocupación creciente a medida que la IA generativa se integra en los flujos de trabajo diarios. Con Gemini integrado en Google Workspace—Gmail, Docs, Slides y Drive—cualquier sistema donde el asistente analiza el contenido del usuario es potencialmente vulnerable.

Lo que lo hace más peligroso es que estos resúmenes pueden parecer muy convincentes. Si Gemini incluye una advertencia de seguridad falsa, los usuarios podrían tomarla en serio ya que confían en Gemini como parte de Google Workspace sin darse cuenta de que en realidad es un mensaje malicioso oculto.

Estrategia de defensa en múltiples capas de Google

En respuesta, Google ha implementado un sistema de defensa en capas para Gemini que está diseñado para hacer que estos ataques sean más difíciles de llevar a cabo. Las medidas incluyen:

Clasificadores de aprendizaje automático para detectar indicaciones maliciosas
Desinfección de Markdown para eliminar formatos peligrosos
Redacción de URL sospechosas
Un marco de confirmación del usuario que agrega un punto de control adicional antes de ejecutar tareas sensibles.
Notificaciones para alertar a los usuarios cuando se detecta una inyección de indicaciones

Google dice que también está trabajando con investigadores externos y equipos rojos para refinar sus defensas e implementar protecciones adicionales en futuras versiones de Gemini.

“Estamos constantemente fortaleciendo nuestras defensas ya robustas a través de ejercicios de equipos rojos que entrenan a nuestros modelos para defenderse contra este tipo de ataques adversariales”, dijo un portavoz de Google a BleepingComputer en una declaración.

Si bien Google ha declarado que aún no hay evidencia de que esta técnica se haya utilizado en ataques del mundo real, el descubrimiento es una clara advertencia de que incluso el contenido generado por IA, sin importar cuán fluido sea, aún puede ser manipulado.

Recibe nuevas publicaciones en tu bandeja de entrada.