3 másodpernyi anyag is elég hangunk reprodukálásához

Bitport2023.01.13.Cloud & big data

A bizonyítékot erre a VALL-E szolgáltatta, amely az eddigi algoritmusokhoz képest sokkal megbízhatóbban képes imitálni az emberi beszédet.

Hirdetés

Impresszív tudományos eredményekről számoltak be nemrégiben a Microsoft kutatói. VALL-E-nek elnevezett szövegből hangot készítő modelljüknek (text-to-speech, TTS) mindössze egy rövid mondatot is elég "hallania" valakitől ahhoz, hogy meggyőzően tudjon bármilyen témában megszólalni az eredeti személy stílusában, hanghordozásában.

VALL-E képességeit egy 60 ezer órányi, összesen több mint 7000 ember angol nyelvű beszédét tartalmazó adatkészleten trenírozták, ami nagyságrendi ugrást jelent az eddigiekhez képest. Ennek és egyéb eljárásoknak köszönhető, hogy az algoritmusnak elég 3 másodperc a "célszemély" leutánzásához. Az MI ráadásul nem csupán a hanghordozást igyekszik hűen visszaadni, de egyaránt képes az érzelmek és a környezeti viszonyok reprodukálására.

Minderről bárki saját fülével is megbizonyosodhat, mivel a projekt demóoldalán egy sor mintát tettek elérhetővé a szakemberek. Ezek többsége tényleg kísértetiesen jól adja vissza az eredeti személy stílusát, beleértve az akcentusokat, illetve eltérő régiókra jellemző sajátosságokat.

Ugyanakkor (szerencsére?) a rendszer még nem tökéletes, amit például egy-egy rossz helyen megnyomott hangsúly jelez. Maga a kutatási anyag is említ még korrigálandó hibákat: a szintetizált beszédben egyes szavak hiányoznak, nem egyértelműek vagy megkettőzve hangzanak el. Az akcentusok és beszédstílusok területén is van mit fejlődni, mivel bármennyire is nagy volt az adatkészlet, bőven lenne mit finomítani azzal, ha változatosabb tanulóanyagon trenírozódhatna VALL-E.

Jó ez nekünk?

A mesterséges intelligencia fejlődése általában véve rengeteg új lehetőséget teremt a világban, amit igyekeznek is kihasználni, azaz pénzre váltani a technológiai óriások. Maga a Microsoft például végül 20 milliárd dollárt sem sajnált a Nuance megvásárlására, amelynek beszédfelismerő technológiáját az Apple is igénybe vette a Siri megalkotásánál. Legutóbb pedig arról szóltak a pletykák, hogy 10 milliárddal erősíti pozícióját a ChatGPT-ről elhíresült OpenAI-ban. A potenciált jól mutatja, hogy kizárólag a TTS-hez köthető MI-megoldások piacát több 10 milliárd dollárosra saccolják már az évtized végére.

Való igaz, amennyiben ezek a megoldások kellően érett szintre érnek, gyorsan és olcsón lehet majd velük például hangoskönyveket készíteni, de jól jöhetnek az automatizált ügyfélkezelésben, vagy éppen a videójátékok színvonalának további emelésében.

A másik oldalon viszont ott van a potenciálisan nagyon is súlyos visszaélések lehetősége. A deepfake-nek nevezett csalások, hamisítványok elterjedése ellen Kínában például rendkívül szigorú szabályozást léptettek életbe. Maguk a WALL-E megalkotói egy etikai megjegyzéssel zárják a bemutatójukat:

"Mivel a VALL-E képes olyan beszédet szintetizálni, amely megőrzi a beszélő identitását, a modell potenciális kockázatokat hordoz. Például a hangazonosítás meghamisítása vagy egy adott beszélő megszemélyesítése. A kísérleteket azzal a feltételezéssel végeztük, hogy a felhasználó beleegyezik abba, hogy a beszédszintézis során ő legyen az alany. Ha a modellt általánosítják a valós világban nem látott beszélőkre, akkor olyan protokollt kell tartalmaznia, amely biztosítja, hogy a beszélő jóváhagyja a hangja és a szintetizált beszédfelismerő modell használatát" - összegezték a témával kapcsolatos véleményüket az alkotók.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Fekete felhők gyülekeznek az OpenAI fölött

A legfrissebb elemzések szerint az elmúlt időszak piaci folyamatai és a versenytársak helyezkedése egyre nehezebb helyzetbe hozzák az elképesztő költekezést folytató MI-vállalatot.

Hirdetés

A "jó gazda" szemlélet menti meg az MI-költségvetést

A 4iG IT minden lehetőséget biztosít ügyfeleinek ahhoz, hogy a FinOps eszközeivel teljes körű kontrollt gyakorolhassanak IT-költéseik felett – még akkor is, ha a mesterséges intelligencia miatt új, nehezen becsülhető, dinamikusan változó költségstruktúrákat kell kezelniük.

A hónap témája

Így lesznek CAPEX és OPEX jó barátok, avagy a hibrid IT-költségmenedzsment

Hogyan lehet összehangolni a CAPEX és OPEX költségeket a FinOps módszerekkel?

a melléklet támogatója a 4iG

CIO Podcast

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Fekete felhők gyülekeznek az OpenAI fölött

Így lesznek CAPEX és OPEX jó barátok, avagy a hibrid IT-költségmenedzsment

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia