I video deepfake sono diventati più facili con l'algoritmo di apprendimento avversariale a pochi colpi

Deepfake, per chi non lo sapesse, è una tecnica basata sull’intelligenza artificiale (AI), che può essere utilizzata per alterare foto o video sovrapponendo immagini a video utilizzando una tecnica di apprendimento automatico, chiamata Rete Generativa Avversariale (GAN), che è in grado di generare nuovi set di dati con lo stesso set che è stato utilizzato per addestrarlo inizialmente. Un deepfake generato in questo modo può essere utilizzato in vari modi illeciti contro una persona per fabbricare la sua statura pubblica. Per non parlare delle lunghezze a cui questo potrebbe essere portato per causare danno alla persona.

i video deepfake sono diventati più facili con l'algoritmo di apprendimento avversariale a pochi colpi - apprendimento avversariale a pochi colpi

In passato, i Deepfake sono stati utilizzati per alterare e travisare discorsi politici. E l’anno scorso, è stata lanciata un’applicazione desktop, chiamata FakeApp, per consentire alle persone (non esperte di tecnologia) di creare e condividere facilmente video con volti scambiati. Questo software richiede molta elaborazione grafica, spazio di archiviazione, un enorme set di dati: per apprendere i diversi aspetti dell’immagine che possono essere sostituiti e utilizza la libreria software gratuita e open-source di Google, Tensorflow. Ciò che è ancora più allarmante è che non è solo FakeApp, ma molti software simili, che sono disponibili per il download gratuito su Internet.

Ad oggi, i ricercatori del Samsung AI Center di Mosca hanno sviluppato un modo per creare ‘ritratti viventi’ da un set di dati molto piccolo (anche solo una singola fotografia, in alcuni modelli). L’articolo, ‘Apprendimento avversariale a pochi colpi di modelli neurali realistici di teste parlate’, che evidenzia lo stesso, è stato pubblicato anche lunedì, chiarendo come il modello possa essere addestrato utilizzando un set di dati relativamente più piccolo.

In questo articolo, i ricercatori hanno evidenziato il nuovo meccanismo di apprendimento, chiamato ‘few-shot’, dove il modello può essere addestrato utilizzando solo un’immagine singola per creare un ritratto convincente. Hanno anche menzionato che utilizzare un set di dati leggermente più grande, con fino a 8 o 32 fotografie, può aiutare a migliorare il ritratto e renderlo più convincente.

Anche su TechPP

crea video deepfake 15 App e Siti Web per Creare Video Deepfake Come un ProfessionistaLeggi di più

A differenza dei video deepfake o di altri algoritmi che utilizzano GAN per incollare un volto su un altro utilizzando espressioni tipiche della persona, la tecnica di apprendimento ‘few-shot’ di Samsung utilizza caratteristiche facciali comuni degli esseri umani per generare un nuovo volto. Per questo, i ‘modelli di testa parlate’ vengono creati utilizzando reti neurali convoluzionali (CNN), con l’algoritmo che subisce un meta-addestramento su un ampio set di dati di video di teste parlate, chiamato ‘set di dati di teste parlate’, con diversi tipi di aspetto prima di essere pronto per implementare l’apprendimento ‘few- e one-shot’. Per chi non lo sapesse, la CNN è come una rete neurale artificiale che può classificare immagini, ordinarle insieme, simili, e eseguire il riconoscimento degli oggetti per identificare i diversi aspetti dei dati visivi. Quindi, con la CNN, l’algoritmo addestrato può facilmente differenziare e rilevare i diversi punti di riferimento del volto e poi produrre l’output desiderato.

Il ‘set di dati di teste parlate’ utilizzato dai ricercatori è stato preso da ‘VoxCeleb’: 1 e 2, con il secondo set di dati che ha circa 10 volte più video del primo. Per mostrare cosa può essere realizzato utilizzando il loro algoritmo, i ricercatori hanno mostrato diverse animazioni di dipinti e ritratti. Una di queste animazioni è della Gioconda, in cui, lei muove la bocca e gli occhi e ha un sorriso sul volto.

i video deepfake sono diventati più facili con l'algoritmo di apprendimento avversariale a pochi colpi - apprendimento avversariale a pochi colpi

Per concludere, ecco un breve estratto dall’articolo pubblicato, per riassumere la ricerca: “Fondamentalmente, il sistema è in grado di inizializzare i parametri sia del generatore che del discriminatore in modo specifico per la persona, in modo che l’addestramento possa essere basato su solo poche immagini e fatto rapidamente, nonostante la necessità di sintonizzare decine di milioni di parametri. Mostriamo che tale approccio è in grado di apprendere modelli di teste parlate altamente realistici e personalizzati di nuove persone e persino dipinti di ritratti.”

Ricevi i nuovi post nella tua casella di posta.