Videón látjuk beszélni a politikust. Amit mond, az szinkronban van a szája mozgásával, amit hallunk, az teljesen valószerűnek tűnik. Csak éppen sosem hagyták el a száját azok a szavak a való életben, amik elhangzanak a mozgóképen. Üdvözljük a 21. század deepfake világában.
Többé nem hihetünk a szemünknek
A deep learning és a fake, azaz a mélytanulás és a hamisítvány szavakból képzett kifejezés egészen újkeletű, gyökerei azonban már két évtizedes múltra nyúlnak vissza. 1997-ben kapott nyilvánosságot a Video Rewrite program, amely kifejezetten a létező videofelvételek utólagos manipulációja végett jött létre. A mozgóképen beszélő személy mondandójának megváltoztatása azonban a huszonkét évvel ezelőtti technika segítségével természetesen nem lehetett tökéletes.
2017-ben azonban ijesztő és egyben nagyon izgalmas dolog történt. Megismerhettük a Synthesizing Obama programot, melyen belül az egykori amerikai elnök egyik nyilatkozatát variálták át, meghökkentően életszerűen. Barack Obama videóján olyan dolgokról beszél, amik valójában sosem hangzottak el az eredeti felvételen. Ehhez akkor a hanganyag szintézisét használták fel, melyet szinkronizáltak az elnök szájmozgásával. Így látszólag pontosan azokat a szavakat formázzák ajkai, amelyeket hallani a mozgókép alatt – miközben a manipulált szöveget Obama nem mondta el.
Már akkor sejteni lehetett, hogy egészen komoly változás előtt áll a világ, az emberi érzékelés megbízhatósága megrendülőben van. A neurális hálóra alapuló öntanuló rendszerek egyre ügyesebbé válásával ugyanis megnyílt az út az adatfolyam-manipuláció viharos tempójú, minden korábbinál jobb minőségűvé alakulása előtt. A mesterséges intelligencia bevetésével mára, ha még nem is hétköznapivá, de sokkal elérhetőbbé vált az átlagos emberi érzékszervek számára hitelesnek tűnő, ámde hamis videók, hanganyagok, képek előállítása.
A témáról bővebben többek között Egor Zakharov, a Samsung moszkvai, a Mona Lisát is mozgásra bíró mesterségesintelligencia-kutató központjának mérnöke fog beszélni az ITBN konferencián.
Az elv voltaképp roppant egyszerű: mintafelismerés és -másolás történik algoritmizált módszerek használatával. A forrásanyag elemzését végző programok azonosítják azokat a pontokat, amiknek megváltoztatásával továbbra is életszerű marad a digitális anyag. Ezek ismeretében gyakorlatilag bármilyen szöveggel vagy képi információval módosíthatóvá válik az eredeti tartalom.
A jó, a rossz (és a csúf?)
A deepfake-nek köszönhetően tehát szinte bármilyen, korábban nem létezett tartalom előállítható – mára viszonylag alacsony erőforrásigénnyel. Lássunk néhány példát, mire használhatók a mélytanulásra alapuló manipuláló algoritmusok!
Kezdjük egy egyszerű, veszélytelennek tűnő projekttel, a This person does not exist név alatt futóval. Az oldal minden egyes megnyitás során generál egy, korábban nem létező, senki által nem látott emberi arcot. A számos paraméter figyelembevételével létrehozott látvány életszerű; ha az oldalra látogató nem tudná, hogy mit lát, nem is feltételezné, hogy pusztán ügyes algoritmusok kreálmányát nézi, nem pedig egy valódi ember valódi arcát.
A mai lehetőségekhez képest már primitívnek hat, de igenis hatásos volt az idén tavasszal megjelent Nancy Pelosi videó. A Fehér Ház szóvivőjének beszédét közvetítő videó sebességét csökkentették az eredeti 75 százalékára, amivel ugyan továbbra is valódinak hatott, viszont megváltozott hangzása. Ennek következtében Pelosi beszéde az átlagos néző számára olyannak tűnt, mintha azt alkoholos befolyásoltság alatt mondta volna el.
A videó egyébként még a Facebook üzemeltetőit is annyira megzavarta, hogy mintegy két napig nem tudták döntést hozni a közösségi hálózaton való sorsáról. Végül a szólásszabadságra hivatkozva az eltávolítás helyett a minőségrontás mellett döntöttek.
Legtöbbször az emberi érzékszervek átverése a cél, de nem minden esetben. A tavalyi év elején derült ki, hogy az önvezető autók KRESZ-táblákat azonosító rendszere, amely mintafelismeréssel dolgozik, viszonylag egyszerűen becsapható. Pár, digitális feldolgozás esetében pixelnek tűnő ragasztással a STOP táblából könnyen sebességkorlátozó jelzés hozható létre. Ugyan az emberi szem felismeri az eredeti tartalmat, a gépi látást alkalmazó járművek azonban nem – így a veszélyes kereszteződés előtt való megállás helyett maximum lassítással járó tovább haladásról dönthetnek.
Szintén a gépi elemzés megtévesztése volt a célja a Mozilla DeepSpeech beszédfelismerő rendszere manipulációjának. Mivel a szövegértelmezés elve ismert, bárki számára hozzáférhető, ezért olyan algoritmussal filterezett szöveggel, viszonylag könnyen tehették próbára, amit másként értelmez az emberi fül és a gépi hallás. Miközben tehát az ember számára nem tűnik fel a manipuláció, gépi szinten nagyon is észlelhető.
Vannak azonban jó oldalai is a deepfake mögött álló technológiáknak. A fejlett mintafelismerő és mélytanuló algoritmusok közelítik annak módszerét, ahogy agyunk tanul. Ez felgyorsíthatja a robotika fejlődését, emberszerűbb gépi eszközök hozhatók létre általa már a közeljövőben.
Mindeközben könnyebbé válik az olyan feladatok végrehajtása, mint például a tervezett plasztikai beavatkozások várható eredményének bemutatása vagy az öregedés külsőnkre gyakorolt hatásainak évtizedes előrejelzése. Ez egyben a bűnüldözés eszköztárát is kibővíti, megnehezítve a magukat másnak álcázó, rejtőzködő bűnözők dolgát.
Hol vannak a morális határok?
A jelenség tehát nem egyértelműen jó vagy rossz. Mint mindig, ebben az esetben is a használóján múlik, hogy minek, kinek a javára él (vissza) a technika adta lehetőségekkel. Kétségtelen ugyanakkor, hogy egyre egyszerűbbé válik az emberi észlelés megtévesztése. Ennek pedig egyenes következménye, hogy emberi erővel mind összetettebbé válik a tényellenőrzés, a manipuláció észrevétele.
Az évezredes rabló-pandúr játék tehát egészen új dimenzióban folytatódik. Gépi ellenőrző eszközökkel automatizálható és jelentősen javítható a hamisítványok felfedése. Annak érdekében, hogy az emberek zömét meg lehessen védeni az ilyen jellegű befolyásolási, átverési kísérletek negatív hatásaitól, élni is kell ezzel a módszerrel. Hiszen gépek nélkül egyre kevésbé fogjuk tudni megmondani, hogy mi igaz és mi nem.
Ez a folyamat ugyanakkor óriási felelősséget ad az algoritmizált ellenőrzőeszközöket fejlesztők és üzemeltetők kezébe. A nem is olyan távoli jövőben már nem tudunk személyesen igazságot tenni, rá leszünk utalva arra, hogy mások mondják meg, mi a hamisítvány és mi nem az. Vagyis az emberi gondolkodás befolyásolása újabb, minden korábbinál hatásosabb eszközökkel és szolgáltatásokkal gyarapodik.
Vajon tudunk-e bölcsen bánni ezzel a tudással?
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak