A bizonyítékot erre a VALL-E szolgáltatta, amely az eddigi algoritmusokhoz képest sokkal megbízhatóbban képes imitálni az emberi beszédet.

Impresszív tudományos eredményekről számoltak be nemrégiben a Microsoft kutatói. VALL-E-nek elnevezett szövegből hangot készítő modelljüknek (text-to-speech, TTS) mindössze egy rövid mondatot is elég "hallania" valakitől ahhoz, hogy meggyőzően tudjon bármilyen témában megszólalni az eredeti személy stílusában, hanghordozásában.

VALL-E képességeit egy 60 ezer órányi, összesen több mint 7000 ember angol nyelvű beszédét tartalmazó adatkészleten trenírozták, ami nagyságrendi ugrást jelent az eddigiekhez képest. Ennek és egyéb eljárásoknak köszönhető, hogy az algoritmusnak elég 3 másodperc a "célszemély" leutánzásához. Az MI ráadásul nem csupán a hanghordozást igyekszik hűen visszaadni, de egyaránt képes az érzelmek és a környezeti viszonyok reprodukálására.

Minderről bárki saját fülével is megbizonyosodhat, mivel a projekt demóoldalán egy sor mintát tettek elérhetővé a szakemberek. Ezek többsége tényleg kísértetiesen jól adja vissza az eredeti személy stílusát, beleértve az akcentusokat, illetve eltérő régiókra jellemző sajátosságokat.

Ugyanakkor (szerencsére?) a rendszer még nem tökéletes, amit például egy-egy rossz helyen megnyomott hangsúly jelez. Maga a kutatási anyag is említ még korrigálandó hibákat: a szintetizált beszédben egyes szavak hiányoznak, nem egyértelműek vagy megkettőzve hangzanak el. Az akcentusok és beszédstílusok területén is van mit fejlődni, mivel bármennyire is nagy volt az adatkészlet, bőven lenne mit finomítani azzal, ha változatosabb tanulóanyagon trenírozódhatna VALL-E.

Jó ez nekünk?

A mesterséges intelligencia fejlődése általában véve rengeteg új lehetőséget teremt a világban, amit igyekeznek is kihasználni, azaz pénzre váltani a technológiai óriások. Maga a Microsoft például végül 20 milliárd dollárt sem sajnált a Nuance megvásárlására, amelynek beszédfelismerő technológiáját az Apple is igénybe vette a Siri megalkotásánál. Legutóbb pedig arról szóltak a pletykák, hogy 10 milliárddal erősíti pozícióját a ChatGPT-ről elhíresült OpenAI-ban. A potenciált jól mutatja, hogy kizárólag a TTS-hez köthető MI-megoldások piacát több 10 milliárd dollárosra saccolják már az évtized végére.

Való igaz, amennyiben ezek a megoldások kellően érett szintre érnek, gyorsan és olcsón lehet majd velük például hangoskönyveket készíteni, de jól jöhetnek az automatizált ügyfélkezelésben, vagy éppen a videójátékok színvonalának további emelésében.

A másik oldalon viszont ott van a potenciálisan nagyon is súlyos visszaélések lehetősége. A deepfake-nek nevezett csalások, hamisítványok elterjedése ellen Kínában például rendkívül szigorú szabályozást léptettek életbe. Maguk a WALL-E megalkotói egy etikai megjegyzéssel zárják a bemutatójukat:

"Mivel a VALL-E képes olyan beszédet szintetizálni, amely megőrzi a beszélő identitását, a modell potenciális kockázatokat hordoz. Például a hangazonosítás meghamisítása vagy egy adott beszélő megszemélyesítése. A kísérleteket azzal a feltételezéssel végeztük, hogy a felhasználó beleegyezik abba, hogy a beszédszintézis során ő legyen az alany. Ha a modellt általánosítják a valós világban nem látott beszélőkre, akkor olyan protokollt kell tartalmaznia, amely biztosítja, hogy a beszélő jóváhagyja a hangja és a szintetizált beszédfelismerő modell használatát" - összegezték a témával kapcsolatos véleményüket az alkotók.

Cloud & big data

Sztrájkba kezdenek a videójátékok szinkronszínészei az MI miatt

A hollywoodi színészek és a játékkészítő stúdiók képviselői közel álltak a megállapodáshoz, ám a generatív algoritmusok jelentette problémákat egyelőre nem sikerült megnyugtatóan rendezni.
 
Általános jelenség a hazai nagyvállalatok körében, hogy a szükségesnél jelentősen többet költenek nyilvánosfelhő-szolgáltatásokra. Utánajártunk, mi a pontos helyzet, és mit lehet tenni a költségek optimalizálásáért.

a melléklet támogatója a 4iG Nyrt.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.