fantaios AI-инструменты, собранные с заботой
Help center · запись База знаний / Помощь
10.06.2026 9 мин чтения Что такое deepfake и чем он отличается от face swap
На этой странице

Deepfake против face swap: где проходит реальная граница

Если коротко, face swap это техника замены лица, которая существовала ещё до нейросетей и опиралась на компьютерную графику. Deepfake шире: это любой синтетический медиаконтент (видео, аудио, изображение), сгенерированный нейросетями. Face swap считается одним из подтипов дипфейка, но подменять понятия неправильно.

Главная техническая разница в том, что face swap часто выполняет человек руками или полуавтоматически, а deepfake создаётся автоматически после обучения сети на данных. Отсюда более высокий реализм нейросетевых подделок, иные правовые риски и совершенно другие способы детекции.

Что такое deepfake: определение простыми словами

Слово deepfake склеено из двух частей: deep learning (глубокое обучение) и fake (подделка). Термин впервые появился на Reddit в 2017 году, когда пользователь под ником Deepfakes публиковал порнографические ролики с лицами знаменитостей. С тех пор смысл расширился, но генеалогия осталась: любой материал под этим именем подразумевает участие нейросети.

Дипфейк это не обязательно видео. Сегодня под этим словом понимают четыре больших класса синтетических медиа:

  • видео с подменой лица или мимики;
  • аудио со сгенерированным голосом конкретного человека;
  • статичные изображения лиц несуществующих людей;
  • тексты, написанные большой языковой моделью от чужого имени.

Когда в новостях звучит фраза «дипфейк-звонок», речь идёт именно о голосовой генерации. Она оказалась едва ли не опаснее видеоподделок, потому что у телефонной линии нет визуального канала для проверки.

Что такое face swap: определение и отличие от фотомонтажа

Face swap, или замена лица, это компьютерно-графическая техника, при которой одно лицо подставляется на место другого. Она появилась задолго до 2017 года и долгое время делалась полностью вручную: ретушёр совмещал контуры, подгонял цвет кожи, замазывал швы. От обычного фотомонтажа face swap отличается фокусом на лицевой геометрии и попыткой сохранить мимику исходного кадра, тогда как фотомонтаж может склеивать произвольные элементы.

С появлением нейросетевых алгоритмов face swap получил автоматизированный аналог, который тоже часто называют этим же словом. Из-за этого возникла понятийная путаница: сегодня face swap может означать и старую графическую технику, и подвид дипфейка. По справедливости второе всё-таки следует относить уже к дипфейкам, потому что движущая сила там не графический редактор, а обученная модель.

Face swap это подтип дипфейка, но не его синоним. Deepfake шире и включает голос, мимику, генерацию лиц с нуля и многое другое.

Главное отличие: технологическая основа

Если свести разницу к одному предложению: face swap живёт на уровне пикселей и контуров, deepfake живёт на уровне статистики признаков. Графический редактор работает с тем, что видит человек. Нейросеть работает с математическим описанием лица в скрытом пространстве, поэтому она способна реконструировать выражения, которых исходно не было в кадре.

Самая распространённая архитектура для face swap по версии vc.ru это автоэнкодер. Принцип такой: для донора и реципиента обучают общий кодировщик, который сжимает любое лицо в компактный набор признаков, и два разных декодировщика, каждый из которых умеет восстанавливать «своё» лицо. После обучения декодировщики меняют местами, и лицо донора начинает повторять мимику реципиента кадр в кадр.

Альтернатива это генеративно-состязательные сети (GAN), где одна модель генерирует изображения, а вторая пытается отличить подделку от настоящего материала. Обе учатся параллельно и подталкивают друг друга к более убедительному результату. Платой за качество становится время: связка из нескольких GAN, по данным vc.ru, требует нескольких суток обучения и мощного кластера видеокарт.

Традиционный face swap почти всегда оставляет видимые артефакты: рассогласованную линию волос, скачок цвета кожи, странные тени вдоль скул. Нейросетевой deepfake убирает большую часть этих швов, потому что сеть учится не отдельным деталям, а целостному распределению признаков лица.

A clean side-by-side comparison filling the frame, two portraits of the same young woman against a neutral grey studio backdrop, the left half labeled in white sans-serif as "FACE SWAP" with visible mismatched seams along the jawline and slightly off skin tone near the hairline, the right half labeled "DEEPFAKE" with seamless blending and natural micro-shadows. Soft cool diffused key light from upper left, gentle fill from the right keeping shadows readable, subtle vignette pulling focus to the faces, calm editorial atmosphere.

Сравнительная таблица: deepfake vs face swap

Чтобы свести расхождение к понятной матрице, удобно сравнить технологии по пяти критериям, которые чаще всего влияют на принятие решений в реальной жизни.

Критерий Face swap Deepfake
Технологическая основа Компьютерная графика, ручное или полуавтоматическое редактирование Глубокое обучение: GAN или автоэнкодер, сеть учится сама
Охват модальностей Только лицо на фото или видео Лицо, голос, мимика, синтез несуществующих людей
Реализм результата Часто видны швы, скачки цвета, артефакты по контуру Высокий, при достаточных данных швы практически неразличимы
Сложность создания Относительно быстро, нужен графический редактор и навык Часы или сутки обучения нейросети, требуется GPU-кластер
Правовые риски Локальные: использование чужого изображения без согласия Шире: клевета, мошенничество, обход биометрии, политические манипуляции

Из таблицы видна неочевидная вещь: face swap дешевле и быстрее, но даёт менее убедительный результат. Это объясняет, почему массовые приложения для замены лица в TikTok чаще всего используют упрощённые алгоритмы. Качество жертвуется ради скорости и работы прямо на смартфоне.

Виды дипфейков: не только замена лица

По классификации Vision Labs, опубликованной на Хабре, есть несколько крупных подвидов дипфейка лица. Замена лица только один из них, и в новостных материалах это часто теряется.

  1. Перенос лица (face swap). Лицо донора подставляется на место лица реципиента, мимика берётся от исходного видео.
  2. Face reenactment / Lip-sync. Лицо человека остаётся своим, но мимика, движение губ и речь подменяются. Удобно для перевода видео на другой язык, опасно при подделке выступлений.
  3. Голосовой дипфейк (voice cloning). Синтез голоса конкретного человека по нескольким минутам записи. Видеоряда здесь может вообще не быть.
  4. Synthetic faces. Генерация несуществующих людей с нуля. Используется в фотобанках, аватарах, фейковых аккаунтах в соцсетях.
  5. Кастомизация атрибутов. Изменение причёски, цвета кожи, очков, возраста. Это уже ближе к фильтрам, но технологически тот же класс генеративных моделей.

Отдельно стоит выделить алгоритм ID-Injection. Он не просто заменяет одно лицо другим, а смешивает черты донора и реципиента, создавая третье, промежуточное лицо. Из-за этого результат оказывается ближе к «совмещённой личности», чем к чистой подмене, и это важно понимать, если речь идёт о спорных случаях идентификации.

An infographic-style flat illustration on a soft off-white background, five labeled icon panels arranged in a row at equal spacing, each panel showing a stylized face with a different transformation: panel one a face with a swap arrow over it, panel two a face with animated mouth lines indicating lip sync, panel three a microphone with sound waves replacing the face, panel four a brand-new generated face marked with a sparkle, panel five a face with toggled glasses and hair color swatches. Crisp even diffused lighting from above, calm explanatory atmosphere, modern editorial flat-design style.

Распространённые заблуждения

Миф 1: deepfake и face swap это одно и то же

Реальность: face swap это подтип дипфейка, причём исторически более старый. Deepfake шире и опирается на глубокое обучение, а не на ручное редактирование. Слова взаимозаменяемы только в неточной речи.

Миф 2: дипфейки это только замена лица на видео

Реальность: изначально термин действительно касался видео, но довольно быстро распространился на голосовые дипфейки, синтез несуществующих лиц и текстовые подделки. Голосовой дипфейк без видеоряда уже не раз применялся для крупного финансового мошенничества.

Миф 3: поднести фотографию к камере, это тоже дипфейк

Реальность: это физическая подделка, а не цифровая. Защита от неё строится на технологии liveness, которая отвечает на вопрос «живой ли это человек» перед камерой. Защита от дипфейков работает иначе: ищет цифровые артефакты в готовом файле. Перепутать категории легко, но методы защиты у них принципиально разные.

Как дипфейки используются: от кино до мошенничества

Технология двойственная по своей природе. Та же сеть, что омолаживает актёра в кадре, может имитировать голос руководителя компании. Контекст определяет всё.

На легальной стороне дипфейки давно работают в кино, рекламе, образовательных проектах и цифровых аватарах. Канонический пример осознанного использования это рождественское поздравление от лица королевы Елизаветы II, которое выпустил британский Channel 4 в 2020 году как наглядное предупреждение об опасностях технологии.

На криминальной стороне ландшафт куда плотнее. В 2019 году сотрудник британской энергетической компании перевёл несколько сотен тысяч долларов мошенникам после звонка с поддельным голосом своего руководителя, об этом писал mvideo.ru. В январе 2024 года перед праймериз в Нью-Гэмпшире избиратели получили автоматические звонки с голосом, имитирующим президента Байдена, с просьбой не приходить на голосование. А 16 марта 2022 года на взломанном новостном сайте распространилось фейковое видео от имени президента Украины Зеленского, что считается первым задокументированным применением дипфейков в военно-политических целях.

Самая масштабная по количеству категория остаётся теневой. По данным русскоязычной Wikipedia о дипфейках, 96% всех дипфейк-видео в сети это порнографический контент, причём 99% такого материала делается с лицами популярных актрис и певиц. Параллельно 66% специалистов по кибербезопасности, опрошенных в августе и процитированных calendar-australia.com, лично сталкивались с дипфейками в кибератаках. Для индустрии это уже не экзотика.

Правовой статус дипфейков в России

Специального закона о дипфейках в России нет. Это важно проговорить, потому что отсутствие отдельной нормы часто читается как «значит, разрешено». Это не так. Применяется набор уже существующих статей, и их вполне достаточно для того, чтобы привлечь нарушителя к ответственности.

Ключевая опора это статья 152.1 Гражданского кодекса РФ: публиковать фото и видео человека без его согласия запрещено. Об этом со ссылкой на ГК РФ пишет Skillbox. Дополнительно работают нормы о защите чести, достоинства и деловой репутации, а в случае мошенничества или угроз подключаются уже статьи Уголовного кодекса.

Что делать, если стали жертвой дипфейка? Алгоритм действий несложный, но требует фиксации:

  • сохраните ссылки и скриншоты со страниц, где размещён материал;
  • заверьте контент у нотариуса (это обычно решает вопрос с доказательствами);
  • направьте жалобу администрации платформы со ссылкой на нарушение прав;
  • при подозрении на мошенничество или клевету подайте заявление в полицию;
  • при необходимости подавайте гражданский иск о защите чести и достоинства, а также о компенсации морального вреда.

Как распознать дипфейк: признаки и инструменты

Без специальных программ полный гарант детекции дать невозможно, но базовая визуальная проверка отсеивает значительную часть низкокачественных подделок. На что смотреть в первую очередь:

  • Моргание. Ранние модели часто давали слишком редкое или, наоборот, слишком регулярное моргание.
  • Края лица. Размытие или резкая граница вдоль линии волос и подбородка выдаёт работу нейросети.
  • Освещение. Тени на лице не совпадают с тенями на шее и одежде, бликов на глазах нет или они в неправильном месте.
  • Зубы и уши. Эти зоны труднее всего поддаются сети: зубы сливаются в одну массу, мочки ушей выглядят пластиковыми.
  • Синхронизация губ. При lip-sync дипфейках движение рта чуть отстаёт от звука или, наоборот, опережает его.
Extreme close-up of a single human eye and surrounding cheekbone area filling the entire frame, fine pixel artifacts and a faint mismatched skin-tone seam visible along the lower eyelid, a subtle blur band running diagonally where two image regions meet, iris reflection slightly misaligned with the apparent light source. Sharp directional cool daylight from the right modeling skin texture, soft ambient fill from the left, clinical investigative atmosphere reminiscent of forensic analysis.

Есть один большой подвох. Сжатие, через которое проходят ролики в соцсетях (JPEG для кадров, H.264 для видео), убирает именно те низкоуровневые артефакты, на которые ориентируются автоматические детекторы. Это отмечено в материале Хабра о технологиях детекции. На практике это значит, что скачанный из мессенджера ролик проверить значительно сложнее, чем оригинальный файл с диска.

Из инструментальных решений показательным остаётся Microsoft Video Authenticator, анонсированный компанией 1 сентября 2020 года. Он анализирует видео покадрово и оценивает вероятность того, что материал был подменён. Это не серебряная пуля и не общедоступный сервис, но как ориентир по тому, как должна выглядеть нормальная корпоративная детекция, продукт полезен.

Отдельно стоит развести две похожие, но разные технологии. Liveness detection отвечает на вопрос «живой ли перед камерой человек», а не «тот ли это человек». Она защищает биометрические системы от физических подделок (фото к камере, маска, видео с экрана). Детекция дипфейков решает другую задачу: проверить, не сгенерирован ли уже готовый медиафайл искусственно. Путать их не стоит, потому что один инструмент не заменяет другой.

Если запомнить только одну мысль из этого материала, пусть это будет следующая. Face swap отвечает на вопрос «как заменить лицо на изображении». Deepfake отвечает на вопрос «как сгенерировать правдоподобный синтетический медиаконтент». Это разные задачи, разные инструменты и разные риски, и именно поэтому их не следует называть одним словом.

N0tail

вот этот кусок про сжатие в соцсетях прям бесит. полгода назад скинули видео в тг, а потом доказывай что это монтаж. детекторы вообще ничего не показали

Chola

ну да, microsoft video authenticator. ага. и где его взять обычному человеку? вот выше про это даже не написали

Cml

я думала face swap и дипфейк синонимы если честно

Geguri

@Cml нет, разные вещи. face swap старая графика, deepfake это уже про сетки. в статье норм объяснено

DrLupo

а сколько вообще стоит сделать норм дипфейк? в плане железа

Biryu

@DrLupo по статье несколько суток обучения на кластере GPU. на дешевом железе результат будет со швами

N0tail

вот этот момент про liveness и детекцию что разные вещи, важный. путают все подряд

Karrigan

по диагонали читал, тема знакомая. в банке у нас liveness внедряли, гемор

Staryuuki

а синтетические лица это вот те с thispersondoesnotexist? я там аватарку год брала

rebko

статья нормальная но не хватает практики. вот получил подозрительное видео в мессенджере, что делать. сжатие все артефакты съело

Chola

@rebko в том и проблема. в статье прямо сказано: после h264 проверять почти бесполезно. и дальше тишина

cznburak

ну такое. полгода назад был кейс на работе, голосовой звонок от якобы директора. чуть не повелись

cznburak

у нас был случай, отдельная история

Astral

плюсую про голос. видео хотя бы по глазам видно, а голос вообще никак

B1kA

если есть оригинальный файл, не из мессенджера, можно через ffmpeg вытащить покадрово в png без потерь и уже смотреть артефакты. сжатие как раз режет высокочастотные признаки

rebko

@B1kA о, вот это интересно. то есть берешь исходник до загрузки в тг и через -c:v png раскладываешь?

B1kA

@rebko ага. потом по кадрам смотришь зубы, уши, границу волос. на h264 эти зоны замыливает, а на png все видно. у нас на 137 кадрах из 230 нашли несовпадение тени по линии челюсти

Geguri

@B1kA не панацея, но как первый фильтр да, работает. у меня по такому методу один ролик с lip-sync вылез сразу, губы отставали на пару кадров

Chola

хм, выше про ffmpeg, надо попробовать. с детекторами как-то всегда мутно было

Karrigan

окей, сохранил себе совет

Cml

а можно подробнее про автоэнкодер? я не очень в теме сеток

Biryu

@Cml там общий кодировщик жмет лицо в признаки, а потом два декодера: один восстанавливает донора, второй реципиента. на выходе декодеры меняют местами

Cml

@Biryu спасибо, кажется поняла

N0tail

вот про статью 152.1 ГК хорошо написали. только на практике пока дойдешь до суда, ролик уже разлетится по 200 пабликам

DrLupo

tldr, скипнул половину про право. меня больше интересует как самому не попасть. в фотобанках сейчас половина лиц синтетические походу

Tips Official

по поводу id-injection: это вообще отдельная история, потому что результат не идентифицируем как конкретный человек. правовая квалификация там сложная, потому что лицо не принадлежит никому конкретно

Antoha

+ за разбор про id-injection, редко где встречается

Mikecrack

хороший момент про channel 4 и королеву, не знал

Staryuuki

королева елизавета 2020, прикольно сделали

Chola

звучит как пресс-релиз весь кусок про microsoft. реально работающих опенсорсных детекторов нет

Geguri

@Chola есть несколько на github, но точность плавает от 60 до 80 в зависимости от датасета. для боевого применения слабовато

N0tail

вот я и говорю. на бумаге защита есть, на проде ноль

rebko

коллега вчера на созвоне как раз про дипфейк-звонки говорил. в августе опросили, 66% безопасников лично сталкивались. цифра жесть

cznburak

@rebko ну да, по статье калькулировали что-то такое. у нас в подразделении за последний год 4 случая

Astral

+

DrLupo

а есть приложения чтобы в реалтайме проверять видеозвонок? хотя бы простой индикатор

Biryu

@DrLupo пока серьезных нет в опенсорсе. корпоративные решения есть, но цена не для домашнего пользователя

Karrigan

в обед читаю, не успеваю в детали. но ffmpeg трюк забрал, спасибо

Tips Official

хочу уточнить про liveness. она не отвечает на вопрос тот ли это человек. она отвечает живой ли. это разные задачи, и в банковской биометрии их закладывают параллельно

Cml

блин, я думала liveness и анти-дипфейк одно и то же

Geguri

путают часто. liveness про физическую подделку, дипфейк-детекция про цифровую. совершенно разные стеки

N0tail

вот это надо было крупно в начале статьи. а то 80% людей путает

Staryuuki

а можно ли по фото с паспорта сделать норм дипфейк? интересно теоретически