Impresszív tudományos eredményekről számoltak be nemrégiben a Microsoft kutatói. VALL-E-nek elnevezett szövegből hangot készítő modelljüknek (text-to-speech, TTS) mindössze egy rövid mondatot is elég "hallania" valakitől ahhoz, hogy meggyőzően tudjon bármilyen témában megszólalni az eredeti személy stílusában, hanghordozásában.
VALL-E képességeit egy 60 ezer órányi, összesen több mint 7000 ember angol nyelvű beszédét tartalmazó adatkészleten trenírozták, ami nagyságrendi ugrást jelent az eddigiekhez képest. Ennek és egyéb eljárásoknak köszönhető, hogy az algoritmusnak elég 3 másodperc a "célszemély" leutánzásához. Az MI ráadásul nem csupán a hanghordozást igyekszik hűen visszaadni, de egyaránt képes az érzelmek és a környezeti viszonyok reprodukálására.
Minderről bárki saját fülével is megbizonyosodhat, mivel a projekt demóoldalán egy sor mintát tettek elérhetővé a szakemberek. Ezek többsége tényleg kísértetiesen jól adja vissza az eredeti személy stílusát, beleértve az akcentusokat, illetve eltérő régiókra jellemző sajátosságokat.
Ugyanakkor (szerencsére?) a rendszer még nem tökéletes, amit például egy-egy rossz helyen megnyomott hangsúly jelez. Maga a kutatási anyag is említ még korrigálandó hibákat: a szintetizált beszédben egyes szavak hiányoznak, nem egyértelműek vagy megkettőzve hangzanak el. Az akcentusok és beszédstílusok területén is van mit fejlődni, mivel bármennyire is nagy volt az adatkészlet, bőven lenne mit finomítani azzal, ha változatosabb tanulóanyagon trenírozódhatna VALL-E.
Jó ez nekünk?
A mesterséges intelligencia fejlődése általában véve rengeteg új lehetőséget teremt a világban, amit igyekeznek is kihasználni, azaz pénzre váltani a technológiai óriások. Maga a Microsoft például végül 20 milliárd dollárt sem sajnált a Nuance megvásárlására, amelynek beszédfelismerő technológiáját az Apple is igénybe vette a Siri megalkotásánál. Legutóbb pedig arról szóltak a pletykák, hogy 10 milliárddal erősíti pozícióját a ChatGPT-ről elhíresült OpenAI-ban. A potenciált jól mutatja, hogy kizárólag a TTS-hez köthető MI-megoldások piacát több 10 milliárd dollárosra saccolják már az évtized végére.
Való igaz, amennyiben ezek a megoldások kellően érett szintre érnek, gyorsan és olcsón lehet majd velük például hangoskönyveket készíteni, de jól jöhetnek az automatizált ügyfélkezelésben, vagy éppen a videójátékok színvonalának további emelésében.
A másik oldalon viszont ott van a potenciálisan nagyon is súlyos visszaélések lehetősége. A deepfake-nek nevezett csalások, hamisítványok elterjedése ellen Kínában például rendkívül szigorú szabályozást léptettek életbe. Maguk a WALL-E megalkotói egy etikai megjegyzéssel zárják a bemutatójukat:
"Mivel a VALL-E képes olyan beszédet szintetizálni, amely megőrzi a beszélő identitását, a modell potenciális kockázatokat hordoz. Például a hangazonosítás meghamisítása vagy egy adott beszélő megszemélyesítése. A kísérleteket azzal a feltételezéssel végeztük, hogy a felhasználó beleegyezik abba, hogy a beszédszintézis során ő legyen az alany. Ha a modellt általánosítják a valós világban nem látott beszélőkre, akkor olyan protokollt kell tartalmaznia, amely biztosítja, hogy a beszélő jóváhagyja a hangja és a szintetizált beszédfelismerő modell használatát" - összegezték a témával kapcsolatos véleményüket az alkotók.
Felhőbe vezető út hazai szakértelemmel
Robusztus műszaki háttér, korszerű technológia és a felhasználóbarát kezelhetőség. A Flex Cloudhoz nem kell nagy IT-csapat, csak egy elhatározás és pár kattintás.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak