Les vidéos deepfake viennent de devenir plus faciles avec l'algorithme d'apprentissage adversarial Few-Shot

Deepfake, pour ceux qui ne le savent pas, est une technique basée sur l’intelligence artificielle (IA), qui peut être utilisée pour altérer des photos ou des vidéos en superposant des images sur des vidéos à l’aide d’une technique d’apprentissage automatique, appelée Réseau Adversarial Génératif (GAN), capable de générer de nouveaux ensembles de données avec le même ensemble qui a été utilisé pour l’entraîner initialement. Un deepfake généré de cette manière peut être utilisé de diverses manières illicites contre une personne pour fabriquer sa stature publique. Sans parler des longueurs auxquelles cela pourrait être pris pour nuire à la personne.

les vidéos deepfake viennent de devenir plus faciles avec l'algorithme d'apprentissage adversarial Few-Shot - apprentissage adversarial few-shot

Dans le passé, les Deepfakes ont été utilisés pour altérer et déformer des discours politiques. Et l’année dernière, une application de bureau, au nom de FakeApp, a été lancée pour permettre aux gens (non technophiles) de créer et de partager facilement des vidéos avec des visages échangés. Ce logiciel nécessite beaucoup de traitement graphique, d’espace de stockage, un énorme ensemble de données : pour apprendre les différents aspects de l’image qui peuvent être remplacés et utilise la bibliothèque de logiciels gratuite et open-source de Google, Tensorflow. Ce qui est encore plus alarmant, c’est que ce n’est pas seulement FakeApp, mais beaucoup de logiciels similaires, qui sont disponibles en téléchargement gratuit sur Internet.

À ce jour, des chercheurs du Samsung AI Center à Moscou ont développé un moyen de créer des « portraits vivants » à partir d’un très petit ensemble de données (aussi petit qu’une seule photographie, dans quelques modèles). L’article, « Apprentissage Adversarial Few-Shot de Modèles Réalistes de Têtes Parlantes », qui met en évidence cela, a également été publié lundi, clarifiant comment le modèle peut être entraîné en utilisant un ensemble de données relativement plus petit.

Dans cet article, les chercheurs ont mis en avant le nouveau mécanisme d’apprentissage, appelé « few-shot », où le modèle peut être entraîné en utilisant juste une seule image pour créer un portrait convaincant. Ils ont également mentionné que l’utilisation d’un ensemble de données légèrement plus grand, avec jusqu’à 8 ou 32 photographies, peut aider à améliorer le portrait et à le rendre plus convaincant.

Aussi sur TechPP

15 Applications & Sites Web pour Faire des Vidéos Deepfake Comme un ProLire la suite

Contrairement aux vidéos deepfake ou à d’autres algorithmes qui utilisent GAN pour coller un visage sur un autre en utilisant les expressions caractéristiques de la personne, la technique d’apprentissage « few-shot » de Samsung utilise des caractéristiques faciales communes des humains pour générer un nouveau visage. Pour cela, les « modèles de têtes parlantes » sont créés à l’aide de réseaux de neurones convolutifs (CNN), l’algorithme subissant une méta-formation sur un grand ensemble de données de vidéos de têtes parlantes, appelé « ensemble de données de têtes parlantes », avec différents types d’apparences avant d’être prêt à mettre en œuvre l’apprentissage « few- et one-shot ». Pour ceux qui ne le savent pas, CNN est comme un réseau de neurones artificiels qui peut classifier des images, les trier ensemble, par similarité, et effectuer une reconnaissance d’objets pour identifier les différents aspects des données visuelles. Ainsi, avec CNN, l’algorithme entraîné peut facilement différencier et détecter les différents points de repère d’un visage et ensuite produire le résultat souhaité.

L’« ensemble de données de têtes parlantes » utilisé par les chercheurs a été pris de « VoxCeleb » : 1 et 2, le deuxième ensemble de données ayant environ 10 fois plus de vidéos que le premier. Pour montrer ce qui peut être réalisé en utilisant leur algorithme, les chercheurs ont présenté différentes animations de peintures et de portraits. Une telle animation est celle de la Mona Lisa, dans laquelle elle bouge sa bouche et ses yeux et a un sourire sur son visage.

les vidéos deepfake viennent de devenir plus faciles avec l'algorithme d'apprentissage adversarial Few-Shot - apprentissage adversarial few-shot

Pour conclure, voici un court extrait de l’article publié, pour résumer la recherche : « Il est crucial que le système soit capable d’initialiser les paramètres à la fois du générateur et du discriminateur de manière spécifique à la personne, de sorte que l’entraînement puisse être basé sur juste quelques images et effectué rapidement, malgré la nécessité de régler des dizaines de millions de paramètres. Nous montrons qu’une telle approche est capable d’apprendre des modèles de têtes parlantes hautement réalistes et personnalisés de nouvelles personnes et même de peintures de portraits. »

Recevez de nouveaux articles dans votre boîte de réception.