Havaitsemalla "deepfake" -videoita silmänräpäyksessä

Geometrinen lukujono yleisen termin kaavan johtaminen (Huhtikuu 2019).

Anonim

Uusi väärän informaation muoto on valmis levittämään verkkoyhteisöjen kautta, sillä vuoden 2018 puolivälissä pidettävät vaalikampanjat lämpenevät. Sanaa "deepfakes" pseudonimoidun verkkotilin jälkeen, joka suositteli tekniikkaa - joka on ehkä valinnut sen nimen, koska prosessi käyttää teknistä menetelmää nimeltä "syvä oppiminen" - nämä väärennetyt videot näyttävät realistisilta.

Toistaiseksi ihmiset ovat käyttäneet deepfake-videoita pornografiassa ja satiirissa, jotta se näyttäisi siltä, ​​että kuuluisat ihmiset tekevät asioita, joita he eivät yleensä tavoita. Mutta on melkein varmaa, että kampanjakauden aikana esiintyy syväpurkauksia, joiden tarkoituksena on kuvata ehdokkaita, jotka sanovat asioita tai menevät paikkoihin, ei todellinen ehdokas.

Koska nämä tekniikat ovat niin uusia, ihmisillä on vaikeuksia kertoa todellisten videoiden ja syväfake-videoiden välisestä erosta. Työni kollegani Ming-Ching Changin ja Ph.D. opiskelija Yuezun Li, on löytänyt keinon luotettavasti kertoa reaalimaailmasta videoista syvästä videosta. Se ei ole pysyvä ratkaisu, koska tekniikka paranee. Mutta se on alku ja tarjoaa toivoa siitä, että tietokoneet pystyvät auttamaan ihmisiä kertomaan totuuden fiktiosta.

Mikä on "deepfake", joka tapauksessa?

Tehokkaan videon tekeminen on paljon kuin kääntäminen kielten välillä. Palvelut, kuten Google Translate, käyttävät konekielistä oppimista - tietokoneanalyysi kymmeniä tuhansia tekstejä useilla kielillä - havaitsemaan sanakirjat, joita he käyttävät luodakseen käännöksen.

Deepfake-algoritmit toimivat samalla tavoin: he käyttävät systeemistä oppimisjärjestelmää, jota kutsutaan syvällä hermoverkostoksi yhden henkilön kasvojen liikkeen tutkimiseksi. Sitten he syntetisoivat toisen henkilön kasvot, jotka tekevät analogisia liikkeitä. Tehdä niin tehokkaasti videon kohdehenkilöstä, joka näyttää tekemään tai sanomaan asiat, joita lähde henkilö teki.

Ennen kuin he voivat toimia oikein, syvät neuroverkot tarvitsevat paljon lähdetietoja, kuten kuvien henkilöistä, jotka ovat lähdettä tai tavoite jäljitellä. Mitä enemmän kuvia käytetään deepfake-algoritmien harjoittelemiseen, sitä realistisempaa on digitaalinen jäljittely.

Vilkkuu

Tässä uudentyyppisessä algoritmissa on vielä puutteita. Yksi niistä liittyy siihen, miten simuloidut kasvot vilkkuvat - tai eivät. Terveet aikuiset ihmiset vilkkuvat jonnekin joka 2. ja 10. sekunnin välillä, ja yksittäinen vilkaisu kestää yhden kymmenesosan ja neljän kymmenesosan sekunnin. Se olisi normaalia nähdä henkilön videossa. Mutta se ei ole mikään monissa deepfake-videoissa.

Kun deepfake-algoritmi on koulutettu henkilön kasvokuvien perusteella, se riippuu internetistä saatavilla olevista valokuvista, joita voidaan käyttää harjoitustietoina. Jopa usein kuvattujen ihmisten kohdalla muutamia kuvia on saatavilla verkossa, jolloin heidän silmänsä ovat kiinni. Ei vain niin harvinaisia ​​kuvia - koska ihmisten silmät ovat avoimina suurimman osan ajasta - mutta valokuvaajat eivät yleensä julkaise kuvia, joiden pääaiheiden silmät ovat suljetut.

Ilman harjoittelua kuvia ihmisistä vilkkuu, deepfake algoritmit eivät todennäköisesti luo kasvot, jotka vilkkuvat normaalisti. Kun laskemme vilkkuvan kokonaisnopeuden ja verrataan sitä luonnollisella alueella, havaitsimme, että hahmojen deepfake-videot vilkkuvat paljon harvemmin kuin todelliset ihmiset. Tutkimuksessamme käytetään koneen oppimista tarkastelemaan silmien avaamista ja sulkemista videoissa.

Tämä antaa meille inspiraation havaita deepfake-videoita. Sen jälkeen kehitämme menetelmän, jolla havaitaan, milloin video-käyttäjä vilkkuu. Tarkemmin sanottuna se skannaa kyseessä olevan videon jokaisen kehyksen, havaitsee sen kasvot ja etsii sitten silmät automaattisesti. Sen jälkeen se käyttää toista syvää hermoverkkoa sen määrittämiseksi, onko havaittu silmä auki tai suljettu käyttämällä silmän ulkonäköä, geometrisia ominaisuuksia ja liikkumista.

Tiedämme, että työmme on hyödyntänyt eräänlaista dataa, joka on saatavana joukkolohkojen syvyysalgoritmeja varten. Jotta vältetään samanlaisen puutteen joutuminen, olemme kouluttaneet järjestelmämme suurella kuvakirjastolla sekä avoimista että suljetuista silmistä. Tämä menetelmä näyttää toimivan hyvin, ja sen seurauksena olemme saavuttaneet yli 95 prosentin havaitsemisnopeuden.

Tämä ei tietenkään ole viimeinen sana, joka tunnistaa syvyyksiä. Tekniikka paranee nopeasti, ja fake-videoiden luominen ja havaitseminen kilpailu on samanlainen kuin shakkipeli. Erityisesti vilkkuu voidaan lisätä videoiden syvyyteen ottamalla kasvot kuvat suljettujen silmien avulla tai käyttämällä videojaksoja koulutukseen. Ihmiset, jotka haluavat sekoittaa yleisön, saavat parempaa tehdä vääriä videoita - ja me ja muut teknologiayhteisössä täytyy löytää edelleen keinoja havaita ne.

menu
menu