Egy képből és némi hangból készít bárkiből videócsevegő droidot a Google

Bitport2024.03.20.Cloud & big data

Ammenyire meggyőzőek az egyelőre kutatási projekt stádiumban lévő Vlogger képességei, annyira riasztó az is, hogy kik és mire fogják mindezt felhasználni.

Amilyen léptekkel haladnak a fejlesztések, egyre nehezebb olyasmivel előállni a generatív mesterséges intelligencia témájában, amire az ember felkapja a fejét. Bizonyos szempontból ilyesmi sikerült a Google kutatóinak, akik Vlogger elnevezésű modelljüket arra képezték ki, hogy egyetlen állóképből és egy csatolt hanganyagból mozgó, hihetően animált videót készítsen.

A csapat által kiadott tanulmány (PDF) szerint Vlogger nem más, mint egy "újszerű keretrendszer az emberek hangból történő szintetizálására", célja pedig egy olyan avatar megalkotása, amely képes támogatni "az emberi felhasználóval folytatott beszélgetéseket".

Image to Video Generation:

Here are more examples of talking face generation using just a single input image and driving audio. pic.twitter.com/7bZUkIxhVi
— Roni Rahman (@heyronir) March 19, 2024

A kutatók szerint mindezt remekül fel lehetne használni "az online kommunikáció, az oktatás vagy a személyre szabott virtuális asszisztensek fejlesztésénél". A Vlogger ráadásul felvételek autmatikus szerkesztésére is képes. Például az angolul elmondott szöveget spanyolra teszi át úgy, hogy a beszélő szájmozgása is ennek megfelelően változik.

Kockázatok és mellékhatások

Bár a fenti kisfilmeken alaposabb vagy közelebbi vizsgálat után mind felfedezhetők a generált tartalmakra jellemző hibák és "embertelenségek", az kétségtelen, hogy a technológia már most is képes a felületes szemlélőt megtéveszteni. Utóbbi pedig borítékolhatóan arra ösztönöz egyes embereket, hogy saját nemtelen céljaikra használják fel a kezükbe pottyant eszközöket.

Bizonyítékként ott vannak a deepfake-ként emlegetett személyiséglopások és csalások, amelyek a technológia fejlődésével egyre kifinomultabbá válnak. Ott vannak például a gyerek hangjával terrorizáló modern unokázós csalók, de nemrégiben ennek lett áldozata Taylor Swift is.

_{(Fotó: Google Research)}

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Javuló innovációs trendek vetít előre a K&H indexe

Az innováció egyik fontos hajtóereje a mesterséges intelligencia, derül ki a bank friss elemzéséből.

A hónap témája

Mesterséges intelligencia mint költségzabáló fekete lyuk?

Nyakunkon az árnyék MI, és valamit kezdeni kell vele. Az elszabaduló kiadások kapcsán a mindenkit érdeklő kérdés így hangzik: hasznunkra lehet a mesterséges intelligencia a költségoptimalizálásban is?

a melléklet támogatója a 4iG

CIO Podcast

Podcast: Miért kell négy céget nyolc részre vágni, hogy kettőt csináljunk belőlük?

CIO Podcast #66: A DÁP projekt és a piac. A szembesítés félórája

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Javuló innovációs trendek vetít előre a K&H indexe

Mesterséges intelligencia mint költségzabáló fekete lyuk?

Podcast: Miért kell négy céget nyolc részre vágni, hogy kettőt csináljunk belőlük?

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia