Глубокие фейки стали проще благодаря алгоритму обучения с несколькими примерами

Глубокие фейки, для тех, кто не в курсе, — это техника, основанная на искусственном интеллекте (ИИ), которая может использоваться для изменения фотографий или видео путем наложения изображений на видео с использованием техники машинного обучения, называемой Генеративной Состязательной Сетью (GAN), способной генерировать новые наборы данных с тем же набором, который использовался для первоначального обучения. Глубокий фейк, созданный таким образом, может быть использован различными незаконными способами против человека для фальсификации его общественного статуса. Не говоря уже о том, до каких пределов это может дойти, чтобы причинить вред человеку.

глубокие фейки стали проще благодаря алгоритму обучения с несколькими примерами - обучение с несколькими примерами

В прошлом глубокие фейки использовались для изменения и искажения политических речей. А в прошлом году было запущено настольное приложение под названием FakeApp, которое позволяло людям (не обладающим техническими навыками) легко создавать и делиться видео с замененными лицами. Это программное обеспечение требует много графической обработки, места для хранения, огромного набора данных: чтобы изучить различные аспекты изображения, которые могут быть заменены, и использует бесплатную и открытую библиотеку программного обеспечения Google, Tensorflow. Что еще более тревожно, так это то, что это не только FakeApp, но и множество аналогичного программного обеспечения, которое доступно для бесплатной загрузки в интернете.

На сегодняшний день исследователи Центра ИИ Samsung в Москве разработали способ создания «живых портретов» из очень небольшого набора данных (всего из одной фотографии в нескольких моделях). Статья «Обучение с несколькими примерами реалистичных нейронных моделей говорящих голов», которая подчеркивает это, также была опубликована в понедельник, уточняя, как модель может быть обучена с использованием относительно меньшего набора данных.

В этой статье исследователи подчеркнули новый механизм обучения, называемый «обучением с несколькими примерами», где модель может быть обучена с использованием всего лишь одного изображения для создания убедительного портрета. Они также упомянули, что использование немного большего набора данных, состоящего из 8 или 32 фотографий, может помочь улучшить портрет и сделать его более убедительным.

Также на TechPP

создание глубоких фейков 15 приложений и веб-сайтов для создания глубоких фейков как профессионалЧитать далее

В отличие от видео глубоких фейков или других алгоритмов, которые используют GAN для наложения лица на другое с использованием характерных выражений человека, техника «обучения с несколькими примерами» от Samsung использует общие черты лица человека для генерации нового лица. Для этого «модели говорящих голов» создаются с использованием сверточных нейронных сетей (CNN), при этом алгоритм проходит мета-обучение на большом наборе данных видео говорящих голов, называемом «набор данных говорящих голов», с различными типами внешности, прежде чем он будет готов к реализации «обучения с несколькими и одним примером». Для тех, кто не знает, CNN — это как искусственная нейронная сеть, которая может классифицировать изображения, сортировать их по сходству и выполнять распознавание объектов для идентификации различных аспектов визуальных данных. Таким образом, с помощью CNN обученный алгоритм может легко различать и обнаруживать различные ключевые точки лица и затем выдавать желаемый результат.

«Набор данных говорящих голов», использованный исследователями, был взят из «VoxCeleb»: 1 и 2, при этом второй набор данных содержит примерно в 10 раз больше видео, чем первый. Чтобы продемонстрировать, что можно достичь с помощью их алгоритма, исследователи продемонстрировали различные анимации картин и портретов. Одна из таких анимаций — это Мона Лиза, в которой она двигает губами и глазами и улыбается.

В заключение, вот короткий фрагмент из опубликованной статьи, чтобы подвести итог исследованию: «Критически важно, что система может инициализировать параметры как генератора, так и дискриминатора специфическим для человека образом, так что обучение может основываться всего на нескольких изображениях и происходить быстро, несмотря на необходимость настройки десятков миллионов параметров. Мы показываем, что такой подход способен обучать высокореалистичные и персонализированные модели говорящих голов новых людей и даже портретных картин.»

Get new posts in your inbox