A bizonyítékot erre a VALL-E szolgáltatta, amely az eddigi algoritmusokhoz képest sokkal megbízhatóbban képes imitálni az emberi beszédet.

Impresszív tudományos eredményekről számoltak be nemrégiben a Microsoft kutatói. VALL-E-nek elnevezett szövegből hangot készítő modelljüknek (text-to-speech, TTS) mindössze egy rövid mondatot is elég "hallania" valakitől ahhoz, hogy meggyőzően tudjon bármilyen témában megszólalni az eredeti személy stílusában, hanghordozásában.

VALL-E képességeit egy 60 ezer órányi, összesen több mint 7000 ember angol nyelvű beszédét tartalmazó adatkészleten trenírozták, ami nagyságrendi ugrást jelent az eddigiekhez képest. Ennek és egyéb eljárásoknak köszönhető, hogy az algoritmusnak elég 3 másodperc a "célszemély" leutánzásához. Az MI ráadásul nem csupán a hanghordozást igyekszik hűen visszaadni, de egyaránt képes az érzelmek és a környezeti viszonyok reprodukálására.

Minderről bárki saját fülével is megbizonyosodhat, mivel a projekt demóoldalán egy sor mintát tettek elérhetővé a szakemberek. Ezek többsége tényleg kísértetiesen jól adja vissza az eredeti személy stílusát, beleértve az akcentusokat, illetve eltérő régiókra jellemző sajátosságokat.

Ugyanakkor (szerencsére?) a rendszer még nem tökéletes, amit például egy-egy rossz helyen megnyomott hangsúly jelez. Maga a kutatási anyag is említ még korrigálandó hibákat: a szintetizált beszédben egyes szavak hiányoznak, nem egyértelműek vagy megkettőzve hangzanak el. Az akcentusok és beszédstílusok területén is van mit fejlődni, mivel bármennyire is nagy volt az adatkészlet, bőven lenne mit finomítani azzal, ha változatosabb tanulóanyagon trenírozódhatna VALL-E.

Jó ez nekünk?

A mesterséges intelligencia fejlődése általában véve rengeteg új lehetőséget teremt a világban, amit igyekeznek is kihasználni, azaz pénzre váltani a technológiai óriások. Maga a Microsoft például végül 20 milliárd dollárt sem sajnált a Nuance megvásárlására, amelynek beszédfelismerő technológiáját az Apple is igénybe vette a Siri megalkotásánál. Legutóbb pedig arról szóltak a pletykák, hogy 10 milliárddal erősíti pozícióját a ChatGPT-ről elhíresült OpenAI-ban. A potenciált jól mutatja, hogy kizárólag a TTS-hez köthető MI-megoldások piacát több 10 milliárd dollárosra saccolják már az évtized végére.

Való igaz, amennyiben ezek a megoldások kellően érett szintre érnek, gyorsan és olcsón lehet majd velük például hangoskönyveket készíteni, de jól jöhetnek az automatizált ügyfélkezelésben, vagy éppen a videójátékok színvonalának további emelésében.

A másik oldalon viszont ott van a potenciálisan nagyon is súlyos visszaélések lehetősége. A deepfake-nek nevezett csalások, hamisítványok elterjedése ellen Kínában például rendkívül szigorú szabályozást léptettek életbe. Maguk a WALL-E megalkotói egy etikai megjegyzéssel zárják a bemutatójukat:

"Mivel a VALL-E képes olyan beszédet szintetizálni, amely megőrzi a beszélő identitását, a modell potenciális kockázatokat hordoz. Például a hangazonosítás meghamisítása vagy egy adott beszélő megszemélyesítése. A kísérleteket azzal a feltételezéssel végeztük, hogy a felhasználó beleegyezik abba, hogy a beszédszintézis során ő legyen az alany. Ha a modellt általánosítják a valós világban nem látott beszélőkre, akkor olyan protokollt kell tartalmaznia, amely biztosítja, hogy a beszélő jóváhagyja a hangja és a szintetizált beszédfelismerő modell használatát" - összegezték a témával kapcsolatos véleményüket az alkotók.

Cloud & big data

Vért, verítéket és könnyeket ígér az év

A Gartner szerint a tavalyi súlyos mínuszok után túl sok jó idén sem vár a személyi infokommunikációs piac legfontosabb termékeire.
 
Az 5G-vel indul be igazán a precíziós mezőgazdaság forradalma. Ebben nagy az egyetértés a mezőgazdasági és a távközlési szakemberek között.

a melléklet támogatója a Yettel

Létezik egy ortodox irányzat, mely szerint a jelszavak legyenek minél hosszabbak és összetettebbek, valamint cseréljük azokat minél gyakrabban. Valóban ettől lesznek a rendszereink biztonságosabbak? Pfeiffer Szilárd (Balasys) írása.

Miért ne becsüljük le a kisbetűs jelszavakat? 2. rész

Miért ne becsüljük le a kisbetűs jelszavakat? 3. rész

A felmérésekből egyre inkább kiderül, hogy az alkalmazottak megtartása vagy távozása sokszor azon múlik, amit a szervezetük nem csinál, nem pedig azon, amiben egymásra licitál a többi munkáltatóval.

Ezért fontos számszerűsíteni a biztonsági kockázatokat

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2023 Bitport.hu Média Kft. Minden jog fenntartva.