A bizonyítékot erre a VALL-E szolgáltatta, amely az eddigi algoritmusokhoz képest sokkal megbízhatóbban képes imitálni az emberi beszédet.
Hirdetés
 

Impresszív tudományos eredményekről számoltak be nemrégiben a Microsoft kutatói. VALL-E-nek elnevezett szövegből hangot készítő modelljüknek (text-to-speech, TTS) mindössze egy rövid mondatot is elég "hallania" valakitől ahhoz, hogy meggyőzően tudjon bármilyen témában megszólalni az eredeti személy stílusában, hanghordozásában.

VALL-E képességeit egy 60 ezer órányi, összesen több mint 7000 ember angol nyelvű beszédét tartalmazó adatkészleten trenírozták, ami nagyságrendi ugrást jelent az eddigiekhez képest. Ennek és egyéb eljárásoknak köszönhető, hogy az algoritmusnak elég 3 másodperc a "célszemély" leutánzásához. Az MI ráadásul nem csupán a hanghordozást igyekszik hűen visszaadni, de egyaránt képes az érzelmek és a környezeti viszonyok reprodukálására.

Minderről bárki saját fülével is megbizonyosodhat, mivel a projekt demóoldalán egy sor mintát tettek elérhetővé a szakemberek. Ezek többsége tényleg kísértetiesen jól adja vissza az eredeti személy stílusát, beleértve az akcentusokat, illetve eltérő régiókra jellemző sajátosságokat.

Ugyanakkor (szerencsére?) a rendszer még nem tökéletes, amit például egy-egy rossz helyen megnyomott hangsúly jelez. Maga a kutatási anyag is említ még korrigálandó hibákat: a szintetizált beszédben egyes szavak hiányoznak, nem egyértelműek vagy megkettőzve hangzanak el. Az akcentusok és beszédstílusok területén is van mit fejlődni, mivel bármennyire is nagy volt az adatkészlet, bőven lenne mit finomítani azzal, ha változatosabb tanulóanyagon trenírozódhatna VALL-E.

Jó ez nekünk?

A mesterséges intelligencia fejlődése általában véve rengeteg új lehetőséget teremt a világban, amit igyekeznek is kihasználni, azaz pénzre váltani a technológiai óriások. Maga a Microsoft például végül 20 milliárd dollárt sem sajnált a Nuance megvásárlására, amelynek beszédfelismerő technológiáját az Apple is igénybe vette a Siri megalkotásánál. Legutóbb pedig arról szóltak a pletykák, hogy 10 milliárddal erősíti pozícióját a ChatGPT-ről elhíresült OpenAI-ban. A potenciált jól mutatja, hogy kizárólag a TTS-hez köthető MI-megoldások piacát több 10 milliárd dollárosra saccolják már az évtized végére.

Való igaz, amennyiben ezek a megoldások kellően érett szintre érnek, gyorsan és olcsón lehet majd velük például hangoskönyveket készíteni, de jól jöhetnek az automatizált ügyfélkezelésben, vagy éppen a videójátékok színvonalának további emelésében.

A másik oldalon viszont ott van a potenciálisan nagyon is súlyos visszaélések lehetősége. A deepfake-nek nevezett csalások, hamisítványok elterjedése ellen Kínában például rendkívül szigorú szabályozást léptettek életbe. Maguk a WALL-E megalkotói egy etikai megjegyzéssel zárják a bemutatójukat:

"Mivel a VALL-E képes olyan beszédet szintetizálni, amely megőrzi a beszélő identitását, a modell potenciális kockázatokat hordoz. Például a hangazonosítás meghamisítása vagy egy adott beszélő megszemélyesítése. A kísérleteket azzal a feltételezéssel végeztük, hogy a felhasználó beleegyezik abba, hogy a beszédszintézis során ő legyen az alany. Ha a modellt általánosítják a valós világban nem látott beszélőkre, akkor olyan protokollt kell tartalmaznia, amely biztosítja, hogy a beszélő jóváhagyja a hangja és a szintetizált beszédfelismerő modell használatát" - összegezték a témával kapcsolatos véleményüket az alkotók.

Cloud & big data

Bukott ügynek tartja az OpenAI új modelljét a Meta sztár MI-kutatója

Az OpenAI szerint ez már a "világszimulátor" előszobája, Yann LeCun szerint azonban olyan megközelítésről van szó, amelyik sosem fog túllépni a látványos kis videókon.
 
Az alábbiakban körbejárjuk az Enterprise Service Management fogalmát, és megmutatjuk azt is, miben különbözik az ITSM-től.

a melléklet támogatója a Meta-Inf Kft.

CIO KUTATÁS

TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?

Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »

Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

LÁSSUNK NEKI!

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.