Vídeos Deepfake ficaram mais fáceis com o Algoritmo de Aprendizado Adversarial de Poucos Exemplos

Deepfake, para aqueles que não estão familiarizados, é uma técnica baseada em inteligência artificial (IA), que pode ser usada para alterar fotos ou vídeos sobrepondo imagens a vídeos usando uma técnica de aprendizado de máquina, chamada Rede Adversarial Generativa (GAN), que é capaz de gerar novos conjuntos de dados com o mesmo conjunto que foi usado para treiná-la inicialmente. Um deepfake gerado dessa forma pode ser usado de várias maneiras ilícitas contra uma pessoa para fabricar sua estatura pública. Sem mencionar as medidas que podem ser tomadas para causar dano à pessoa.

vídeos deepfake ficaram mais fáceis com o algoritmo de aprendizado adversarial de poucos exemplos - aprendizado adversarial de poucos exemplos

No passado, deepfakes foram usados para alterar e deturpar discursos políticos. E no ano passado, um aplicativo de desktop, chamado FakeApp, foi lançado para permitir que pessoas (não especialistas em tecnologia) criassem e compartilhassem facilmente vídeos com rostos trocados. Este software requer muito processamento gráfico, espaço de armazenamento, um enorme conjunto de dados: para aprender os diferentes aspectos da imagem que podem ser substituídos e usa a biblioteca de software livre e de código aberto do Google, Tensorflow. O que é ainda mais alarmante é que não é apenas o FakeApp, mas muitos softwares similares, que estão disponíveis para download gratuito na internet.

Até hoje, pesquisadores do Centro de IA da Samsung em Moscovo desenvolveram uma maneira de criar ‘retratos vivos’ a partir de um conjunto de dados muito pequeno (tão pequeno quanto uma única fotografia, em alguns modelos). O artigo, ‘Aprendizado Adversarial de Poucos Exemplos de Modelos Realistas de Cabeça Falante Neural’, que destaca o mesmo, também foi publicado na segunda-feira, esclarecendo como o modelo pode ser treinado usando um conjunto de dados relativamente menor.

Neste artigo, os pesquisadores destacaram o novo mecanismo de aprendizado, chamado ‘few-shot’, onde o modelo pode ser treinado usando apenas uma única imagem para criar um retrato convincente. Eles também mencionaram que usar um conjunto de dados ligeiramente maior, com até 8 ou 32 fotografias, pode ajudar a melhorar o retrato e torná-lo mais convincente.

Também no TechPP

15 Aplicativos e Sites para Fazer Vídeos Deepfake Como um ProfissionalLeia Mais

Diferente dos vídeos deepfake ou outros algoritmos que usam GAN para colar um rosto em outro usando expressões típicas da pessoa, a técnica de aprendizado ‘few-shot’ da Samsung, usa características faciais comuns dos humanos para gerar um novo rosto. Para isso, os ‘modelos de cabeça falante’ são criados usando redes neurais convolucionais (CNN), com o algoritmo passando por meta-treinamento em um grande conjunto de dados de vídeos de cabeças falantes, chamado ‘conjunto de dados de cabeças falantes’, com diferentes tipos de aparências antes de estar pronto para implementar o ‘aprendizado de poucos e um exemplo’. Para aqueles que não sabem, CNN é como uma rede neural artificial que pode classificar imagens, agrupá-las, similaridade, e realizar reconhecimento de objetos para identificar os diferentes aspectos dos dados visuais. Assim, com CNN, o algoritmo treinado pode facilmente diferenciar e detectar os diferentes marcos faciais de um rosto e então gerar a saída desejada.

O ‘conjunto de dados de cabeças falantes’ usado pelos pesquisadores foi retirado do ‘VoxCeleb’: 1 e 2, com o segundo conjunto de dados tendo aproximadamente 10 vezes mais vídeos do que o primeiro. Para mostrar o que pode ser alcançado usando seu algoritmo, os pesquisadores mostraram diferentes animações de pinturas e retratos. Uma dessas animações é da Mona Lisa, na qual, ela move a boca e os olhos e tem um sorriso no rosto.

vídeos deepfake ficaram mais fáceis com o algoritmo de aprendizado adversarial de poucos exemplos - aprendizado adversarial de poucos exemplos

Para concluir, aqui está um pequeno trecho do artigo publicado, para resumir a pesquisa: “Crucialmente, o sistema é capaz de inicializar os parâmetros tanto do gerador quanto do discriminador de uma maneira específica para a pessoa, de modo que o treinamento possa ser baseado em apenas algumas imagens e feito rapidamente, apesar da necessidade de ajustar dezenas de milhões de parâmetros. Mostramos que tal abordagem é capaz de aprender modelos de cabeça falante altamente realistas e personalizados de novas pessoas e até mesmo pinturas de retratos.”

Receba novas postagens na sua caixa de entrada