Los videos deepfake se volvieron más fáciles con el algoritmo de aprendizaje adversarial de pocos disparos

Deepfake, para aquellos no iniciados, es una técnica basada en inteligencia artificial (IA), que se puede utilizar para alterar fotos o videos superponiendo imágenes a videos utilizando una técnica de aprendizaje automático, llamada Red Generativa Antagónica (GAN), que es capaz de generar nuevos conjuntos de datos con el mismo conjunto que se utilizó para entrenarlo inicialmente. Un deepfake generado de esta manera se puede utilizar de diversas maneras ilícitas contra una persona para fabricar su estatus público. Sin mencionar, los extremos a los que se podría llegar para causar daño a la persona.

los videos deepfake se volvieron más fáciles con el algoritmo de aprendizaje adversarial de pocos disparos - aprendizaje adversarial de pocos disparos

En el pasado, los deepfakes se han utilizado para alterar y tergiversar discursos políticos. Y el año pasado, se lanzó una aplicación de escritorio, bajo el nombre de FakeApp, para permitir a las personas (no expertas en tecnología) crear y compartir fácilmente videos con rostros intercambiados. Este software requiere mucho procesamiento gráfico, espacio de almacenamiento, un enorme conjunto de datos: para aprender los diferentes aspectos de la imagen que se pueden reemplazar y utiliza la biblioteca de software libre y de código abierto de Google, Tensorflow. Lo que es aún más alarmante es que no solo es FakeApp, sino que hay mucho software similar, que está disponible para descargar gratis en Internet.

Hasta hoy, los investigadores del Centro de IA de Samsung en Moscú han desarrollado una forma de crear ‘retratos vivos’ a partir de un conjunto de datos muy pequeño (tan pequeño como una sola fotografía, en algunos modelos). El artículo, ‘Aprendizaje Adversarial de Pocos Disparos de Modelos Neurales Realistas de Cabeza Hablante’, que destaca lo mismo, también fue publicado el lunes, aclarando cómo se puede entrenar el modelo utilizando un conjunto de datos relativamente más pequeño.

En este artículo, los investigadores destacaron el nuevo mecanismo de aprendizaje, llamado ‘pocos disparos’, donde el modelo puede ser entrenado utilizando solo una imagen para crear un retrato convincente. También mencionaron que usar un conjunto de datos ligeramente más grande, con hasta 8 o 32 fotografías, puede ayudar a mejorar el retrato y hacerlo más convincente.

También en TechPP

15 Aplicaciones y sitios web para hacer videos deepfake como un profesionalLeer más

A diferencia de los videos deepfake u otros algoritmos que utilizan GAN para pegar un rostro a otro utilizando expresiones características de la persona, la técnica de aprendizaje ‘pocos disparos’ de Samsung utiliza características faciales comunes de los humanos para generar un nuevo rostro. Para esto, los ‘modelos de cabeza hablante’ se crean utilizando redes neuronales convolucionales (CNN), con el algoritmo sometiéndose a un meta-entrenamiento en un gran conjunto de datos de videos de cabezas hablantes, llamado ‘conjunto de datos de cabeza hablante’, con diferentes tipos de apariencias antes de estar listo para implementar el ‘aprendizaje de pocos y un disparo’. Para aquellos que no lo saben, CNN es como una red neuronal artificial que puede clasificar imágenes, agruparlas, similitudes y realizar reconocimiento de objetos para identificar los diferentes aspectos de los datos visuales. Así que con CNN, el algoritmo entrenado puede diferenciar y detectar fácilmente los diferentes puntos de referencia faciales de un rostro y luego generar la salida deseada.

El ‘conjunto de datos de cabeza hablante’ utilizado por los investigadores se ha tomado de ‘VoxCeleb’: 1 y 2, siendo el segundo conjunto de datos aproximadamente 10 veces más videos que el primero. Para mostrar lo que se puede lograr utilizando su algoritmo, los investigadores han mostrado diferentes animaciones de pinturas y retratos. Una de estas animaciones es de la Mona Lisa, en la que ella mueve su boca y ojos y tiene una sonrisa en su rostro.

los videos deepfake se volvieron más fáciles con el algoritmo de aprendizaje adversarial de pocos disparos - aprendizaje adversarial de pocos disparos

Para concluir, aquí hay un breve fragmento del artículo publicado, para resumir la investigación: “Crucialmente, el sistema es capaz de inicializar los parámetros tanto del generador como del discriminador de una manera específica para cada persona, de modo que el entrenamiento se pueda basar en solo unas pocas imágenes y realizarse rápidamente, a pesar de la necesidad de ajustar decenas de millones de parámetros. Mostramos que tal enfoque es capaz de aprender modelos de cabeza hablante altamente realistas y personalizados de nuevas personas e incluso pinturas de retratos.”

Recibe nuevas publicaciones en tu bandeja de entrada.