Amilyen léptekkel haladnak a fejlesztések, egyre nehezebb olyasmivel előállni a generatív mesterséges intelligencia témájában, amire az ember felkapja a fejét. Bizonyos szempontból ilyesmi sikerült a Google kutatóinak, akik Vlogger elnevezésű modelljüket arra képezték ki, hogy egyetlen állóképből és egy csatolt hanganyagból mozgó, hihetően animált videót készítsen.
A csapat által kiadott tanulmány (PDF) szerint Vlogger nem más, mint egy "újszerű keretrendszer az emberek hangból történő szintetizálására", célja pedig egy olyan avatar megalkotása, amely képes támogatni "az emberi felhasználóval folytatott beszélgetéseket".
Image to Video Generation:
— Roni Rahman (@heyronir) March 19, 2024
Here are more examples of talking face generation using just a single input image and driving audio. pic.twitter.com/7bZUkIxhVi
A kutatók szerint mindezt remekül fel lehetne használni "az online kommunikáció, az oktatás vagy a személyre szabott virtuális asszisztensek fejlesztésénél". A Vlogger ráadásul felvételek autmatikus szerkesztésére is képes. Például az angolul elmondott szöveget spanyolra teszi át úgy, hogy a beszélő szájmozgása is ennek megfelelően változik.
Kockázatok és mellékhatások
Bár a fenti kisfilmeken alaposabb vagy közelebbi vizsgálat után mind felfedezhetők a generált tartalmakra jellemző hibák és "embertelenségek", az kétségtelen, hogy a technológia már most is képes a felületes szemlélőt megtéveszteni. Utóbbi pedig borítékolhatóan arra ösztönöz egyes embereket, hogy saját nemtelen céljaikra használják fel a kezükbe pottyant eszközöket.
Bizonyítékként ott vannak a deepfake-ként emlegetett személyiséglopások és csalások, amelyek a technológia fejlődésével egyre kifinomultabbá válnak. Ott vannak például a gyerek hangjával terrorizáló modern unokázós csalók, de nemrégiben ennek lett áldozata Taylor Swift is.
(Fotó: Google Research)
A japán bölcsesség ereje: emberség a technológiai megoldások mögött
A globális válság súlyosan érintette az office piacot, ami a GLOBAL-UNION Kft. tevékenységét is veszélybe sodorta. A 100 százalékos magyar tulajdonban álló vállalat azonban a nehézségek közepette is megőrizte optimizmusát, és következetesen a legjobb döntéseket hozta.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak