딥페이크 비디오가 Few-Shot 적대적 학습 알고리즘으로 더 쉬워졌습니다

딥페이크는 인공지능(AI)을 기반으로 한 기술로, 기계 학습 기법인 생성적 적대 신경망(GAN)을 사용하여 이미지를 비디오에 겹쳐서 사진이나 비디오를 변경하는 데 사용될 수 있습니다. 이 방식으로 생성된 딥페이크는 사람의 공적 위상을 조작하기 위해 다양한 불법적인 방법으로 사용될 수 있습니다. 이로 인해 개인에게 해를 끼칠 수 있는 정도를 언급할 필요도 없습니다.

딥페이크 비디오가 Few-Shot 적대적 학습 알고리즘으로 더 쉬워졌습니다 - Few Shot Adversarial Learning

과거에 딥페이크는 정치 연설을 변경하고 잘못 표현하는 데 사용되었습니다. 그리고 작년에 FakeApp이라는 이름의 데스크탑 애플리케이션이 출시되어 비기술자들이 얼굴을 바꾼 비디오를 쉽게 만들고 공유할 수 있게 되었습니다. 이 소프트웨어는 교체할 수 있는 이미지의 다양한 측면을 학습하기 위해 많은 그래픽 처리, 저장 공간, 방대한 데이터 세트를 요구하며, Google의 무료 오픈 소스 소프트웨어 라이브러리인 Tensorflow를 사용합니다. 더 alarming한 것은 FakeApp뿐만 아니라 인터넷에서 무료로 다운로드할 수 있는 유사한 소프트웨어가 많이 있다는 것입니다.

현재 모스크바의 삼성 AI 센터 연구자들은 매우 작은 데이터 세트(몇 가지 모델에서는 단일 사진만으로도 가능)를 사용하여 ‘살아있는 초상화‘를 만드는 방법을 개발했습니다. 같은 내용을 강조한 논문 ‘현실적인 신경 대화 모델의 Few-Shot 적대적 학습’이 월요일에 발표되어 모델이 상대적으로 작은 데이터 세트를 사용하여 어떻게 학습될 수 있는지를 명확히 했습니다.

이 논문에서 연구자들은 모델이 단일 이미지만으로도 설득력 있는 초상화를 생성할 수 있도록 학습할 수 있는 새로운 학습 메커니즘인 ‘few-shot’을 강조했습니다. 그들은 또한 8개 또는 32개의 사진과 같은 약간 더 큰 데이터 세트를 사용하면 초상화를 개선하고 더 설득력 있게 만들 수 있다고 언급했습니다.

또한 TechPP에서

15개의 앱 및 웹사이트로 전문가처럼 딥페이크 비디오 만들기 더 알아보기

딥페이크 비디오나 GAN을 사용하여 다른 얼굴을 붙이는 다른 알고리즘과 달리 삼성의 ‘few-shot’ 학습 기술은 인간의 일반적인 얼굴 특징을 사용하여 새로운 얼굴을 생성합니다. 이를 위해 ‘대화하는 머리 모델’이 합성곱 신경망(CNN)을 사용하여 생성되며, 알고리즘은 ‘대화하는 머리 데이터 세트’라고 불리는 대화하는 머리 비디오의 방대한 데이터 세트에서 메타 학습을 거친 후 ‘few- 및 one-shot 학습’을 구현할 준비가 됩니다. CNN은 이미지를 분류하고 함께 정렬하며 유사성을 찾고 시각적 데이터의 다양한 측면을 식별하기 위해 객체 인식을 수행할 수 있는 인공 신경망과 같습니다. 따라서 CNN을 사용하면 학습된 알고리즘이 얼굴의 다양한 랜드마크를 쉽게 구별하고 감지하여 원하는 출력을 생성할 수 있습니다.

연구자들이 사용한 ‘대화하는 머리 데이터 세트’는 ‘VoxCeleb’: 1 및 2에서 가져온 것으로, 두 번째 데이터 세트는 첫 번째 데이터 세트보다 약 10배 더 많은 비디오를 포함하고 있습니다. 연구자들은 그들의 알고리즘을 사용하여 달성할 수 있는 것을 보여주기 위해 다양한 애니메이션을 선보였습니다. 그 중 하나는 모나리자 애니메이션으로, 그녀는 입과 눈을 움직이며 얼굴에 미소를 짓고 있습니다.

딥페이크 비디오가 Few-Shot 적대적 학습 알고리즘으로 더 쉬워졌습니다 - Few Shot Adversarial Learning

결론적으로, 연구를 요약하기 위해 발표된 논문에서 짧은 발췌를 소개합니다: “중요하게도, 이 시스템은 생성기와 판별기의 매개변수를 개인별로 초기화할 수 있어, 몇 개의 이미지만으로도 학습이 가능하고 빠르게 진행될 수 있습니다. 수천만 개의 매개변수를 조정해야 할 필요가 있음에도 불구하고, 우리는 이러한 접근 방식이 새로운 사람들과 초상화 그림의 매우 사실적이고 개인화된 대화 모델을 학습할 수 있음을 보여줍니다.”

새 게시물을 받은 편지함에서 받기