Deepfakes і Deep Video Porttraits - Якія яны і ў чым розніца?

Вы, несумненна, ведаеце, што такое Deepfake, але вы, магчыма, не ведаеце, што гэта называецца і што гэта сапраўды значыць. Вы можаце не ведаць, што існуюць розныя тыпы тэхналогій, якія могуць ствараць падробленыя відэа і галасы.

Мы ўсе знаёмыя з "фатаграфаванымі" выявамі і тым, як яны набылі шырокі характар. Мы таксама знаёмыя з відэаэфектамі (VFX) і спецэфектамі, якія выкарыстоўваюцца ў фільмах на працягу дзесяцігоддзяў. Але новая эпоха сфабрыкаваных носьбітаў - гэта "Deepfakes".

Тэхналогія Deepfake і Deep Video Portrait - гэта дзве падобныя, але розныя тэхнікі, якія выкарыстоўваюцца ў галівудскіх фільмах, відэа YouTube і так, парнаграфіі. Але што гэта за тэхналогія на самай справе і як усё гэта працуе?

Калі вы яшчэ не бачылі відэа, на якім твар Нікаласа Кейджа быў накладзены на іншага кінаактора, то вы амаль напэўна бачылі адзін са шматлікіх «фільтраў» або «маскі» ў сацыяльных медыях, якія могуць ператварыць вас у кошку, дадайце шэф-повара капялюш да галавы альбо зробіць цябе аднарогам.

Магчыма, вы бачылі відэа BuzzFeed, у якім комік і імпрэсіяніст Джордан Піл дэманструе, як чыёй-то асобай (у дадзеным выпадку былым прэзідэнтам Баракам Абамам) на відэа можна маніпуляваць так, што, здаецца, кажуць тое, чаго ніколі не рабілі.

Магчыма, вы нават чулі пра зорку Wonder Woman, Гал Гадот, якая нібыта з'яўляецца ў відэа для дарослых, падробленае карыстальнікам Reddit пад назвай "deepfakes". Твар Гадо быў накладзены на цела порназоркі ў снежні мінулага года, які стаў адным з першых шырока абмяркоўваемых Deepfakes.

Такім чынам, што такое "Deepfake"?

У аснове Deepfakes - гэта тое, што вы можаце падумаць як "абмен тварам".

A Deepfake - гэта відэа з падтрымкай штучнага інтэлекту, створанае пры дапамозе некалькіх (звычайна сотняў і тысяч) фатаграфій чалавека-крыніцы. Гэтыя выявы можна загрузіць з розных крыніц, напрыклад, у Instagram карыстальніка, Facebook, Snapchat або нават у пошуку малюнкаў Google).

Праграмнае забеспячэнне Deepfake AI адлюстроўвае твар зыходных малюнкаў і стварае трохмерную мадэль асобы на аснове фатаграфій, якія яна падаецца. Мадэль адлюстроўвае мяжу і рысы асобы мэтавага акцёра:

Крыніца: https://hackernoon.com/building-a-facial-recognition-pipeline-with-deep-learning-in-tensorflow-66e7645015b8 by Cole Murray

Праграмнае забеспячэнне таксама прадастаўляецца зыходным відэа, якое змяшчае мэтавы твар, які карыстальнік хоча замяніць. AI таксама адлюстроўвае твар чалавека ў відэа, зноў ствараючы 3-D адлюстраваную мадэль.

Дацэнт кафедры даследаванняў CMU Сайман Люсі выкарыстоўвае сябе ў якасці прыкладу, каб паказаць сваё праграмнае забеспячэнне для картаграфіі асобы, распрацаванае для інтэрнэт-крамы. Крэдыт: Simon Lucey / CMU

Тут ІП пачынае супастаўляць зыходную мадэль з мэтавай мадэллю. "Вывучае" твары з дапамогай прадстаўленых ім малюнкаў (дадзеныя трэніровак), якія выглядаюць прыблізна так:

Прыклад мадэлі трэнінгаў па абмене тварам - Элон Маск на Джэфа Безоса ад Адзі Робертсан, Крыніца: https://www.theverge.com/2018/2/11/16992986/fakeapp-deepfakes-ai-face-swapping

Затым AI накладвае згенераваны 3-D твар з зыходных фатаграфій на 3-D мадэль мэтавага відэа і выдае відэа, у якім рухі тварам, ротам, вачыма і г.д. супадаюць, працуючы ў межах мяжы арыгінальны твар.

Крыніца Deepfake - гэта серыя нерухомых фотаздымкаў, а вынік "Deepfake" - відэа са змененым тварам, напрыклад, такія прыклады:

Чым гэта адрозніваецца ад глыбокага відэапартрэта?

Розніца паміж Deepfake і Deep Video Portrait (DVP, для сцісласці) заключаецца ў двух ключавых адрозненнях:

  1. Выхаднае відэа з DVP не замяняе твар, а толькі маніпулюе функцыямі
  2. Крыніца для DVP бярэ свой пачатак ад акцёра рэальнага дзеяння, а не з асобных фотаздымкаў.

DVP не абменьваецца тварам. Гэта маніпуляцыя на твары. Відэа лялечнае.

Звязанае відэа раней у гэтым артыкуле, якое паказвае, як Абама распавядае пра падробленыя відэа - прыклад DVP, а не глупства. Ёсць акцёр, на якім адлюстравана асоба, і, паколькі вы не замяняеце мэтавае аблічча, а толькі здзяйсняеце рух мэты, вынік можа быць нават больш праўдападобным, чым фотафайл.

Стваральнікі DVP могуць рабіць такія рэчы, як прымусіць мігце міргаць, адкрыць рот, падняць бровы і павярнуць галаву ў бок, зыходзячы з рухаў крыніцы акцёра. Deepfakes, з іншага боку, сапраўды не можа адхіліцца ад рухаў арыгінальнага відэа. Вось чаму DVP больш праўдападобны, чым глыбокі фалк.

Гэты прыклад тлумачыць больш падрабязна пра тое, як працуе гэтая тэхналогія "захопу асобы і рэканструкцыі":

Маска фільтра Snapchat або Instagram - гэта DVP, а не Deepfake. Гэта таму, што гэта вы (мэта не мяняе твары), але ваш твар адлюстраваны, і прыкладанне проста накладвае нешта на ваш уласны твар:

Галасавыя фальсы і партрэты Deep Video

Ёсць яшчэ адзін тып падробленага змесціва, які ў апошні час стаў лепшым і больш даступным - галасавая генерацыя.

На канферэнцыі Adobe Max Creativity у 2016 годзе Adobe прадэманстравала VoCo: аўдыё-набор, які дапаможа карыстальнікам прымусіць людзей сказаць усё, што яны хочуць. Прыдумайце тэкст у размове, але грунтуйцеся на чужым голасе.

Па словах кампаніі, 20 хвілін праслухоўвання можа дазволіць VoCo выводзіць рэалістычны вакальны трэк, які падобны на крыніцу. Выхад генеруецца праз кампутар, на якім працуе праграмнае забеспячэнне.

Adobe VoCo насамрэч не чуў з 2016 года, магчыма, пасля таго, як узнікалі праблемы з прыватнасцю і ідэнтычнасцю. Ён быў прадстаўлены на "форуме ідэй", не абвешчаны як новы прадукт. Гэта выклікала цікавасць, хваляванне і абмеркаванне, але канкрэтнага чакання вызвалення не прапаноўвалася.

Цяпер, калі ідэя і тэхналогіі існуюць, таму, натуральна, іншыя кампаніі выпусцілі ўласную версію тэхналогіі генератара голасу. Lyrebird выпусціў сэрвіс, які генеруе для вас "вакальны аватар" на аснове толькі 30 прапаноў з уводнага маўлення (супраць прыблізна 20 хвілін дадзеных, неабходных для VoCo).

У той час як VoCo патрабаваў мясцовых вылічальных рэсурсаў для атрымання свайго выхаду, Lyrebird выкарыстоўвае маштабуемыя хмарныя рэсурсы, што робіць генерацыю выходных значна больш хуткімі. Lyrebird таксама патрабуе 30 канкрэтных прапаноў супраць 20 хвілін асноўных маўленчых схем, якія могуць зменшыць падробку і іншыя ўразлівасці.

У спалучэнні з DVP галасавая падробка можа павялічыць праўдападобнасць. Гэта таму, што вы не слухаеце ўражанне каго-небудзь, што можа даць падробку, а хутчэй чуеце значна больш пільнае ўяўленне на аснове ўласнага голасу мэтавага чалавека.

Гібрыдныя тэхналогіі

FaceSwap - гэта прыкладанне, якое дазваляе вам па сутнасці спалучаць абмену творамі Deepfake, але ў рэжыме рэальнага часу з тваімі ўласнымі выразамі, якія лялеюць твар іншага чалавека. Ён спалучае ў сабе Deepfake і DVP.

Выснова

Гэтыя тэхналогіі будуць працягваць удасканальвацца. Хоць многія віды выкарыстання займальныя і капрызныя, эфект ад гэтай тэхналогіі будзе значны.

Deepfakes і DVP будуць без сумневу мець шырокі ўплыў на нашы погляды на рэальнасць, давер і прыватнае жыццё. Аднак абмеркаванне этыкі, праблем і ўплыву на грамадства (добрае і дрэннае) выходзіць за рамкі гэтага артыкула.

На сёння адзінае рашэнне - скептычна ставіцца да ўсяго, што вы бачыце і чуеце.

Фота Майка Фота з Pexels