A héten tartott Neural Information Processing Systems konferencián számoltak be a Massachusetts Institute of Technology (MIT) kutatói a hangalapú információ felismerése és feldolgozása terén elért eredményükről. Az MIT szakemberei olyan új módszert mutattak be, mellyel a számítógépek beszédfelismerésre tanítása anélkül mehet végbe, hogy az elhangzottakat először szöveges formára kellene alakítani.
Gyorsan haladunk, de még rengeteg a munka
A mélytanulás iránti érdeklődés fokozódásával folyamatosan javult a számítógépes beszédfelismerés teljesítménye. Ma már ott tartunk, hogy az algoritmizált fordítás alacsonyabb hibaszinttel dolgozik, mint a profi fordítók. Nemrég mi is írtunk arról, hogy a Microsoft új rekordot ért el az emberi szöveg felismerésében. Átlagosan csupán 5,9 százalékos arányban téveszti el a szavakat, ez az arány pedig már megegyezik vagy még jobb is a fordítással professzionális szinten foglalkozók teljesítményével.
Ehhez azonban intenzív tréning szükséges. A kutatóknak eddig meg kellett címkézni a hangforrás szavait a megfelelő szöveggel, hogy a tanulás során a kimondott hangok szavakká állhassanak össze. Ez körültekintő adatgyűjtést igényel, nem csoda, hogy a beszédfelismerő rendszerek még mindig képtelenek nyelvek ezreinek értelmezésére.
A tanulmány társszerzője, Jim Glass szerint ugyan nagy előrelépéseknek lehettünk tanúi az elmúlt évtizedben, főleg az Apple és a Google révén, de még mindig óriási munka áll előttünk ezen a téren. Nagyjából 7 ezer nyelvet használnak a Földön, ennek körülbelül két százalékát képesek az automatikus szövegfelismerési rendszerek valamilyen szinten kezelni.
A végső cél természetesen olyan gépek megalkotása, melyek képesek egy nyelv összetettségének és a szavak jelentésének megértésére anélkül, hogy először a szóban elhangzottakat írott formára kellene alakítani. Az angol terminológiában felügyelet nélküli tanulásnak (unsupervised learning) nevezett folyamat jelenti a kulcsot, ezen a téren alkottak kiemelkedőt az MIT kutatói.
Azonossági pontszám segíti a fordítást
Elképzelésük szerint, ha a szavak csoportosíthatók összefüggő képek sorozataként, és ezekről a képekről szövegre lehet asszociálni, akkor a hangforrás egész pontosan lefordítható szigorú tanítási procedúra nélkül is. Az elképzelés gyakorlatba ültetéséhez a kutatók egy több mint 2,5 millió, 205 különböző címke szerint kategorizált képből álló gyűjteményt használtak fel.
A modellt úgy alakították ki, hogy az kapcsolatot képzett a szavak és a velük kapcsolatos képek között. Minden egyes párosítás során létrejött egy, relevanciától függő azonossági pontszám. A kutatók az adatbázisban megtalálható képeket leíró hangfelvételeket alkalmaztak a hálózat bemeneteként, arra késztetve a rendszert, hogy a leírásnak legjobban megfelelő tíz képet dobja ki eredményül.
Ezek között a megfelelő képet csak 31 százalékos aránnyal adta vissza a rendszer, ami meglehetősen alacsony pontszám. Nem szabad ugyanakkor elfelejteni, hogy az egész módszer kezdetleges fázisban van, a gépi tanulással képzett hálózat anélkül ismert fel beszéd alapján szavakat, hogy bármilyen kiegészítő (szöveges vagy nyelvi) tudása lett volna a feladat megoldásához. A folyamat tehát mindenképpen fejlesztésre szorul, de ha sikerrel jár, az nagy lehetőségeket rejt a beszédfelismerés hatékonyabbá és emberszerűbbé tételében.
A NIS2-megfelelőség néhány technológiai aspektusa
A legtöbb vállalatnál a megfeleléshez fejleszteni kell a védelmi rendszerek kulcselemeit is.
CIO KUTATÁS
TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?
Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »
Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak