На этой странице
- Что такое deepfake: определение простыми словами
- Что такое face swap: определение и отличие от фотомонтажа
- Главное отличие: технологическая основа
- Сравнительная таблица: deepfake vs face swap
- Виды дипфейков: не только замена лица
- Распространённые заблуждения
- Как дипфейки используются: от кино до мошенничества
- Правовой статус дипфейков в России
- Как распознать дипфейк: признаки и инструменты
Deepfake против face swap: где проходит реальная граница
Если коротко, face swap это техника замены лица, которая существовала ещё до нейросетей и опиралась на компьютерную графику. Deepfake шире: это любой синтетический медиаконтент (видео, аудио, изображение), сгенерированный нейросетями. Face swap считается одним из подтипов дипфейка, но подменять понятия неправильно.
Главная техническая разница в том, что face swap часто выполняет человек руками или полуавтоматически, а deepfake создаётся автоматически после обучения сети на данных. Отсюда более высокий реализм нейросетевых подделок, иные правовые риски и совершенно другие способы детекции.
Что такое deepfake: определение простыми словами
Слово deepfake склеено из двух частей: deep learning (глубокое обучение) и fake (подделка). Термин впервые появился на Reddit в 2017 году, когда пользователь под ником Deepfakes публиковал порнографические ролики с лицами знаменитостей. С тех пор смысл расширился, но генеалогия осталась: любой материал под этим именем подразумевает участие нейросети.
Дипфейк это не обязательно видео. Сегодня под этим словом понимают четыре больших класса синтетических медиа:
- видео с подменой лица или мимики;
- аудио со сгенерированным голосом конкретного человека;
- статичные изображения лиц несуществующих людей;
- тексты, написанные большой языковой моделью от чужого имени.
Когда в новостях звучит фраза «дипфейк-звонок», речь идёт именно о голосовой генерации. Она оказалась едва ли не опаснее видеоподделок, потому что у телефонной линии нет визуального канала для проверки.
Что такое face swap: определение и отличие от фотомонтажа
Face swap, или замена лица, это компьютерно-графическая техника, при которой одно лицо подставляется на место другого. Она появилась задолго до 2017 года и долгое время делалась полностью вручную: ретушёр совмещал контуры, подгонял цвет кожи, замазывал швы. От обычного фотомонтажа face swap отличается фокусом на лицевой геометрии и попыткой сохранить мимику исходного кадра, тогда как фотомонтаж может склеивать произвольные элементы.
С появлением нейросетевых алгоритмов face swap получил автоматизированный аналог, который тоже часто называют этим же словом. Из-за этого возникла понятийная путаница: сегодня face swap может означать и старую графическую технику, и подвид дипфейка. По справедливости второе всё-таки следует относить уже к дипфейкам, потому что движущая сила там не графический редактор, а обученная модель.
Face swap это подтип дипфейка, но не его синоним. Deepfake шире и включает голос, мимику, генерацию лиц с нуля и многое другое.
Главное отличие: технологическая основа
Если свести разницу к одному предложению: face swap живёт на уровне пикселей и контуров, deepfake живёт на уровне статистики признаков. Графический редактор работает с тем, что видит человек. Нейросеть работает с математическим описанием лица в скрытом пространстве, поэтому она способна реконструировать выражения, которых исходно не было в кадре.
Самая распространённая архитектура для face swap по версии vc.ru это автоэнкодер. Принцип такой: для донора и реципиента обучают общий кодировщик, который сжимает любое лицо в компактный набор признаков, и два разных декодировщика, каждый из которых умеет восстанавливать «своё» лицо. После обучения декодировщики меняют местами, и лицо донора начинает повторять мимику реципиента кадр в кадр.
Альтернатива это генеративно-состязательные сети (GAN), где одна модель генерирует изображения, а вторая пытается отличить подделку от настоящего материала. Обе учатся параллельно и подталкивают друг друга к более убедительному результату. Платой за качество становится время: связка из нескольких GAN, по данным vc.ru, требует нескольких суток обучения и мощного кластера видеокарт.
Традиционный face swap почти всегда оставляет видимые артефакты: рассогласованную линию волос, скачок цвета кожи, странные тени вдоль скул. Нейросетевой deepfake убирает большую часть этих швов, потому что сеть учится не отдельным деталям, а целостному распределению признаков лица.
Сравнительная таблица: deepfake vs face swap
Чтобы свести расхождение к понятной матрице, удобно сравнить технологии по пяти критериям, которые чаще всего влияют на принятие решений в реальной жизни.
| Критерий | Face swap | Deepfake |
|---|---|---|
| Технологическая основа | Компьютерная графика, ручное или полуавтоматическое редактирование | Глубокое обучение: GAN или автоэнкодер, сеть учится сама |
| Охват модальностей | Только лицо на фото или видео | Лицо, голос, мимика, синтез несуществующих людей |
| Реализм результата | Часто видны швы, скачки цвета, артефакты по контуру | Высокий, при достаточных данных швы практически неразличимы |
| Сложность создания | Относительно быстро, нужен графический редактор и навык | Часы или сутки обучения нейросети, требуется GPU-кластер |
| Правовые риски | Локальные: использование чужого изображения без согласия | Шире: клевета, мошенничество, обход биометрии, политические манипуляции |
Из таблицы видна неочевидная вещь: face swap дешевле и быстрее, но даёт менее убедительный результат. Это объясняет, почему массовые приложения для замены лица в TikTok чаще всего используют упрощённые алгоритмы. Качество жертвуется ради скорости и работы прямо на смартфоне.
Виды дипфейков: не только замена лица
По классификации Vision Labs, опубликованной на Хабре, есть несколько крупных подвидов дипфейка лица. Замена лица только один из них, и в новостных материалах это часто теряется.
- Перенос лица (face swap). Лицо донора подставляется на место лица реципиента, мимика берётся от исходного видео.
- Face reenactment / Lip-sync. Лицо человека остаётся своим, но мимика, движение губ и речь подменяются. Удобно для перевода видео на другой язык, опасно при подделке выступлений.
- Голосовой дипфейк (voice cloning). Синтез голоса конкретного человека по нескольким минутам записи. Видеоряда здесь может вообще не быть.
- Synthetic faces. Генерация несуществующих людей с нуля. Используется в фотобанках, аватарах, фейковых аккаунтах в соцсетях.
- Кастомизация атрибутов. Изменение причёски, цвета кожи, очков, возраста. Это уже ближе к фильтрам, но технологически тот же класс генеративных моделей.
Отдельно стоит выделить алгоритм ID-Injection. Он не просто заменяет одно лицо другим, а смешивает черты донора и реципиента, создавая третье, промежуточное лицо. Из-за этого результат оказывается ближе к «совмещённой личности», чем к чистой подмене, и это важно понимать, если речь идёт о спорных случаях идентификации.
Распространённые заблуждения
Миф 1: deepfake и face swap это одно и то же
Реальность: face swap это подтип дипфейка, причём исторически более старый. Deepfake шире и опирается на глубокое обучение, а не на ручное редактирование. Слова взаимозаменяемы только в неточной речи.
Миф 2: дипфейки это только замена лица на видео
Реальность: изначально термин действительно касался видео, но довольно быстро распространился на голосовые дипфейки, синтез несуществующих лиц и текстовые подделки. Голосовой дипфейк без видеоряда уже не раз применялся для крупного финансового мошенничества.
Миф 3: поднести фотографию к камере, это тоже дипфейк
Реальность: это физическая подделка, а не цифровая. Защита от неё строится на технологии liveness, которая отвечает на вопрос «живой ли это человек» перед камерой. Защита от дипфейков работает иначе: ищет цифровые артефакты в готовом файле. Перепутать категории легко, но методы защиты у них принципиально разные.
Как дипфейки используются: от кино до мошенничества
Технология двойственная по своей природе. Та же сеть, что омолаживает актёра в кадре, может имитировать голос руководителя компании. Контекст определяет всё.
На легальной стороне дипфейки давно работают в кино, рекламе, образовательных проектах и цифровых аватарах. Канонический пример осознанного использования это рождественское поздравление от лица королевы Елизаветы II, которое выпустил британский Channel 4 в 2020 году как наглядное предупреждение об опасностях технологии.
На криминальной стороне ландшафт куда плотнее. В 2019 году сотрудник британской энергетической компании перевёл несколько сотен тысяч долларов мошенникам после звонка с поддельным голосом своего руководителя, об этом писал mvideo.ru. В январе 2024 года перед праймериз в Нью-Гэмпшире избиратели получили автоматические звонки с голосом, имитирующим президента Байдена, с просьбой не приходить на голосование. А 16 марта 2022 года на взломанном новостном сайте распространилось фейковое видео от имени президента Украины Зеленского, что считается первым задокументированным применением дипфейков в военно-политических целях.
Самая масштабная по количеству категория остаётся теневой. По данным русскоязычной Wikipedia о дипфейках, 96% всех дипфейк-видео в сети это порнографический контент, причём 99% такого материала делается с лицами популярных актрис и певиц. Параллельно 66% специалистов по кибербезопасности, опрошенных в августе и процитированных calendar-australia.com, лично сталкивались с дипфейками в кибератаках. Для индустрии это уже не экзотика.
Правовой статус дипфейков в России
Специального закона о дипфейках в России нет. Это важно проговорить, потому что отсутствие отдельной нормы часто читается как «значит, разрешено». Это не так. Применяется набор уже существующих статей, и их вполне достаточно для того, чтобы привлечь нарушителя к ответственности.
Ключевая опора это статья 152.1 Гражданского кодекса РФ: публиковать фото и видео человека без его согласия запрещено. Об этом со ссылкой на ГК РФ пишет Skillbox. Дополнительно работают нормы о защите чести, достоинства и деловой репутации, а в случае мошенничества или угроз подключаются уже статьи Уголовного кодекса.
Что делать, если стали жертвой дипфейка? Алгоритм действий несложный, но требует фиксации:
- сохраните ссылки и скриншоты со страниц, где размещён материал;
- заверьте контент у нотариуса (это обычно решает вопрос с доказательствами);
- направьте жалобу администрации платформы со ссылкой на нарушение прав;
- при подозрении на мошенничество или клевету подайте заявление в полицию;
- при необходимости подавайте гражданский иск о защите чести и достоинства, а также о компенсации морального вреда.
Как распознать дипфейк: признаки и инструменты
Без специальных программ полный гарант детекции дать невозможно, но базовая визуальная проверка отсеивает значительную часть низкокачественных подделок. На что смотреть в первую очередь:
- Моргание. Ранние модели часто давали слишком редкое или, наоборот, слишком регулярное моргание.
- Края лица. Размытие или резкая граница вдоль линии волос и подбородка выдаёт работу нейросети.
- Освещение. Тени на лице не совпадают с тенями на шее и одежде, бликов на глазах нет или они в неправильном месте.
- Зубы и уши. Эти зоны труднее всего поддаются сети: зубы сливаются в одну массу, мочки ушей выглядят пластиковыми.
- Синхронизация губ. При lip-sync дипфейках движение рта чуть отстаёт от звука или, наоборот, опережает его.
Есть один большой подвох. Сжатие, через которое проходят ролики в соцсетях (JPEG для кадров, H.264 для видео), убирает именно те низкоуровневые артефакты, на которые ориентируются автоматические детекторы. Это отмечено в материале Хабра о технологиях детекции. На практике это значит, что скачанный из мессенджера ролик проверить значительно сложнее, чем оригинальный файл с диска.
Из инструментальных решений показательным остаётся Microsoft Video Authenticator, анонсированный компанией 1 сентября 2020 года. Он анализирует видео покадрово и оценивает вероятность того, что материал был подменён. Это не серебряная пуля и не общедоступный сервис, но как ориентир по тому, как должна выглядеть нормальная корпоративная детекция, продукт полезен.
Отдельно стоит развести две похожие, но разные технологии. Liveness detection отвечает на вопрос «живой ли перед камерой человек», а не «тот ли это человек». Она защищает биометрические системы от физических подделок (фото к камере, маска, видео с экрана). Детекция дипфейков решает другую задачу: проверить, не сгенерирован ли уже готовый медиафайл искусственно. Путать их не стоит, потому что один инструмент не заменяет другой.
Если запомнить только одну мысль из этого материала, пусть это будет следующая. Face swap отвечает на вопрос «как заменить лицо на изображении». Deepfake отвечает на вопрос «как сгенерировать правдоподобный синтетический медиаконтент». Это разные задачи, разные инструменты и разные риски, и именно поэтому их не следует называть одним словом.
вот этот кусок про сжатие в соцсетях прям бесит. полгода назад скинули видео в тг, а потом доказывай что это монтаж. детекторы вообще ничего не показали
ну да, microsoft video authenticator. ага. и где его взять обычному человеку? вот выше про это даже не написали
я думала face swap и дипфейк синонимы если честно
@Cml нет, разные вещи. face swap старая графика, deepfake это уже про сетки. в статье норм объяснено
а сколько вообще стоит сделать норм дипфейк? в плане железа
@DrLupo по статье несколько суток обучения на кластере GPU. на дешевом железе результат будет со швами
вот этот момент про liveness и детекцию что разные вещи, важный. путают все подряд
по диагонали читал, тема знакомая. в банке у нас liveness внедряли, гемор
а синтетические лица это вот те с thispersondoesnotexist? я там аватарку год брала
статья нормальная но не хватает практики. вот получил подозрительное видео в мессенджере, что делать. сжатие все артефакты съело
@rebko в том и проблема. в статье прямо сказано: после h264 проверять почти бесполезно. и дальше тишина
ну такое. полгода назад был кейс на работе, голосовой звонок от якобы директора. чуть не повелись
у нас был случай, отдельная история
плюсую про голос. видео хотя бы по глазам видно, а голос вообще никак
если есть оригинальный файл, не из мессенджера, можно через ffmpeg вытащить покадрово в png без потерь и уже смотреть артефакты. сжатие как раз режет высокочастотные признаки
@B1kA о, вот это интересно. то есть берешь исходник до загрузки в тг и через -c:v png раскладываешь?
@rebko ага. потом по кадрам смотришь зубы, уши, границу волос. на h264 эти зоны замыливает, а на png все видно. у нас на 137 кадрах из 230 нашли несовпадение тени по линии челюсти
@B1kA не панацея, но как первый фильтр да, работает. у меня по такому методу один ролик с lip-sync вылез сразу, губы отставали на пару кадров
хм, выше про ffmpeg, надо попробовать. с детекторами как-то всегда мутно было
окей, сохранил себе совет
а можно подробнее про автоэнкодер? я не очень в теме сеток
@Cml там общий кодировщик жмет лицо в признаки, а потом два декодера: один восстанавливает донора, второй реципиента. на выходе декодеры меняют местами
@Biryu спасибо, кажется поняла
вот про статью 152.1 ГК хорошо написали. только на практике пока дойдешь до суда, ролик уже разлетится по 200 пабликам
tldr, скипнул половину про право. меня больше интересует как самому не попасть. в фотобанках сейчас половина лиц синтетические походу
по поводу id-injection: это вообще отдельная история, потому что результат не идентифицируем как конкретный человек. правовая квалификация там сложная, потому что лицо не принадлежит никому конкретно
+ за разбор про id-injection, редко где встречается
хороший момент про channel 4 и королеву, не знал
королева елизавета 2020, прикольно сделали
звучит как пресс-релиз весь кусок про microsoft. реально работающих опенсорсных детекторов нет
@Chola есть несколько на github, но точность плавает от 60 до 80 в зависимости от датасета. для боевого применения слабовато
вот я и говорю. на бумаге защита есть, на проде ноль
коллега вчера на созвоне как раз про дипфейк-звонки говорил. в августе опросили, 66% безопасников лично сталкивались. цифра жесть
@rebko ну да, по статье калькулировали что-то такое. у нас в подразделении за последний год 4 случая
+
а есть приложения чтобы в реалтайме проверять видеозвонок? хотя бы простой индикатор
@DrLupo пока серьезных нет в опенсорсе. корпоративные решения есть, но цена не для домашнего пользователя
в обед читаю, не успеваю в детали. но ffmpeg трюк забрал, спасибо
хочу уточнить про liveness. она не отвечает на вопрос тот ли это человек. она отвечает живой ли. это разные задачи, и в банковской биометрии их закладывают параллельно
блин, я думала liveness и анти-дипфейк одно и то же
путают часто. liveness про физическую подделку, дипфейк-детекция про цифровую. совершенно разные стеки
вот это надо было крупно в начале статьи. а то 80% людей путает
а можно ли по фото с паспорта сделать норм дипфейк? интересно теоретически