해커들이 숨겨진 텍스트를 사용하여 구글 제미니를 속이다

보안 연구원들은 구글의 제미니 AI 어시스턴트를 조작하기 위한 은밀한 새로운 방법을 발견했습니다. 이는 악의적인 명령을 이메일 코드에 숨겨 제미니가 무의식적으로 따르게 만드는 것입니다.

이러한 간접 프롬프트 주입(IPI) 방법을 통해 사기꾼들은 AI가 생성한 요약 내에 가짜 경고를 심어, 이를 구글 자체의 합법적인 경고처럼 보이게 만들어 결국 사용자들을 피싱 함정으로 유도합니다.

익스플로잇 작동 방식

전통적인 피싱 사기가 음흉한 링크나 첨부파일에 의존하는 것과 달리, 이 기술은 이메일의 코드에 속합니다. 공격자들은 보이지 않는 텍스트 — 흰색 배경에 흰색 글꼴, 크기가 0인 글꼴, 또는 화면 밖의 요소를 사용하여 이메일에 지침을 숨깁니다. 인간의 눈에는 보이지 않지만, 제미니는 이를 보고 완전히 처리합니다.

구글 제미니에서 숨겨진 텍스트를 사용하는 해커들

수신자가 구글 워크스페이스에서 “이 이메일 요약하기”를 클릭하면, 제미니는 숨겨진 섹션을 포함한 전체 메시지를 스캔합니다. 만약 그 숨겨진 부분에 악의적인 프롬프트가 포함되어 있다면, 요약 출력에도 포함됩니다.

이로 인해 사용자가 지원 전화번호로 전화하거나 긴급 조치를 취하도록 유도하는 가짜이지만 설득력 있는 보안 경고가 발생합니다. 경고가 제미니 자체에서 온 것처럼 보이기 때문에 사용자는 이를 신뢰할 수 있으며, 이로 인해 공격이 특히 위험해집니다.

버그 바운티 프로그램을 통해 발견된 익스플로잇

구글 제미니의 워크스페이스에 대한 프롬프트 주입 취약점은 모질라의 0din 버그 바운티 프로그램에 의해 연구원 마르코 피구에로아에 의해 공개되었습니다. 그는 공격자가 태그나 CSS 코드와 같은 스타일 지시어를 사용하여 인간의 눈에서 콘텐츠를 숨기도록 설계된 숨겨진 지침을 삽입할 수 있는 방법을 시연했습니다.

제미니는 이러한 지침을 프롬프트의 일부로 처리하기 때문에, 악의적이라는 사실을 인식하지 못한 채 원래 메시지의 일부인 것처럼 요약 출력에서 반복하게 됩니다.

피구에로아는 제미니가 사용자의 Gmail 비밀번호가 유출되었다고 경고하고, 전화할 가짜 지원 번호를 제공하는 가짜 보안 경고를 표시하도록 속일 수 있는 개념 증명 예제를 제공했습니다.

구글 제미니에서 숨겨진 텍스트를 사용하는 해커들

이것이 중요한 이유

이 공격은 악의적인 입력이 AI가 요약해야 하는 콘텐츠 내에 묻혀 있는 간접 프롬프트 주입의 한 형태입니다. 이는 생성 AI가 일상적인 작업 흐름에 통합됨에 따라 점점 더 우려되고 있습니다. 제미니가 구글 워크스페이스—Gmail, Docs, Slides, Drive—전반에 통합되어 있기 때문에, 어시스턴트가 사용자 콘텐츠를 분석하는 모든 시스템이 잠재적으로 취약할 수 있습니다.

더욱 위험한 점은 이러한 요약이 매우 설득력 있게 보일 수 있다는 것입니다. 제미니가 가짜 보안 경고를 포함하면, 사용자는 이를 진지하게 받아들일 수 있으며, 제미니가 구글 워크스페이스의 일부로 신뢰할 수 있다는 사실을 인식하지 못한 채 실제로는 숨겨진 악의적인 메시지임을 깨닫지 못할 수 있습니다.

구글의 다층 방어 전략

이에 대응하여 구글은 이러한 공격을 더 어렵게 만들기 위해 제미니에 대한 다층 방어 시스템을 도입했습니다. 조치 사항은 다음과 같습니다:

악의적인 프롬프트를 감지하기 위한 기계 학습 분류기
위험한 형식을 제거하기 위한 마크다운 정화
의심스러운 URL 삭제
민감한 작업을 실행하기 전에 추가 확인을 추가하는 사용자 확인 프레임워크
프롬프트 주입이 감지되었을 때 사용자에게 알리는 알림

구글은 또한 외부 연구원 및 레드 팀과 협력하여 방어를 개선하고 향후 제미니 버전에서 추가 보호 조치를 구현하고 있다고 밝혔습니다.

“우리는 이러한 유형의 적대적 공격에 대해 방어할 수 있도록 모델을 훈련시키는 레드 팀 연습을 통해 이미 강력한 방어를 지속적으로 강화하고 있습니다.”라고 구글 대변인이 BleepingComputer에 성명에서 밝혔습니다.

구글은 현재 이 기술이 실제 공격에 사용되었다는 증거는 없다고 밝혔지만, 이 발견은 AI가 생성한 콘텐츠가 아무리 매끄럽더라도 여전히 조작될 수 있다는 명확한 경고입니다.

새 게시물을 받은 편지함에서 받기