Nagy előrelépés a beszédértésben

Szilágyi Szabolcs2016.12.09.Cloud & big data

A mesterséges intelligencia egyre közelebb kerül ahhoz, hogy úgy értelmezze az emberi beszélgetéseket, ahogyan azt mi tesszük.

A héten tartott Neural Information Processing Systems konferencián számoltak be a Massachusetts Institute of Technology (MIT) kutatói a hangalapú információ felismerése és feldolgozása terén elért eredményükről. Az MIT szakemberei olyan új módszert mutattak be, mellyel a számítógépek beszédfelismerésre tanítása anélkül mehet végbe, hogy az elhangzottakat először szöveges formára kellene alakítani.

Gyorsan haladunk, de még rengeteg a munka

A mélytanulás iránti érdeklődés fokozódásával folyamatosan javult a számítógépes beszédfelismerés teljesítménye. Ma már ott tartunk, hogy az algoritmizált fordítás alacsonyabb hibaszinttel dolgozik, mint a profi fordítók. Nemrég mi is írtunk arról, hogy a Microsoft új rekordot ért el az emberi szöveg felismerésében. Átlagosan csupán 5,9 százalékos arányban téveszti el a szavakat, ez az arány pedig már megegyezik vagy még jobb is a fordítással professzionális szinten foglalkozók teljesítményével.

Ehhez azonban intenzív tréning szükséges. A kutatóknak eddig meg kellett címkézni a hangforrás szavait a megfelelő szöveggel, hogy a tanulás során a kimondott hangok szavakká állhassanak össze. Ez körültekintő adatgyűjtést igényel, nem csoda, hogy a beszédfelismerő rendszerek még mindig képtelenek nyelvek ezreinek értelmezésére.

A tanulmány társszerzője, Jim Glass szerint ugyan nagy előrelépéseknek lehettünk tanúi az elmúlt évtizedben, főleg az Apple és a Google révén, de még mindig óriási munka áll előttünk ezen a téren. Nagyjából 7 ezer nyelvet használnak a Földön, ennek körülbelül két százalékát képesek az automatikus szövegfelismerési rendszerek valamilyen szinten kezelni.

A végső cél természetesen olyan gépek megalkotása, melyek képesek egy nyelv összetettségének és a szavak jelentésének megértésére anélkül, hogy először a szóban elhangzottakat írott formára kellene alakítani. Az angol terminológiában felügyelet nélküli tanulásnak (unsupervised learning) nevezett folyamat jelenti a kulcsot, ezen a téren alkottak kiemelkedőt az MIT kutatói.

Azonossági pontszám segíti a fordítást

Elképzelésük szerint, ha a szavak csoportosíthatók összefüggő képek sorozataként, és ezekről a képekről szövegre lehet asszociálni, akkor a hangforrás egész pontosan lefordítható szigorú tanítási procedúra nélkül is. Az elképzelés gyakorlatba ültetéséhez a kutatók egy több mint 2,5 millió, 205 különböző címke szerint kategorizált képből álló gyűjteményt használtak fel.

A modellt úgy alakították ki, hogy az kapcsolatot képzett a szavak és a velük kapcsolatos képek között. Minden egyes párosítás során létrejött egy, relevanciától függő azonossági pontszám. A kutatók az adatbázisban megtalálható képeket leíró hangfelvételeket alkalmaztak a hálózat bemeneteként, arra késztetve a rendszert, hogy a leírásnak legjobban megfelelő tíz képet dobja ki eredményül.

Ezek között a megfelelő képet csak 31 százalékos aránnyal adta vissza a rendszer, ami meglehetősen alacsony pontszám. Nem szabad ugyanakkor elfelejteni, hogy az egész módszer kezdetleges fázisban van, a gépi tanulással képzett hálózat anélkül ismert fel beszéd alapján szavakat, hogy bármilyen kiegészítő (szöveges vagy nyelvi) tudása lett volna a feladat megoldásához. A folyamat tehát mindenképpen fejlesztésre szorul, de ha sikerrel jár, az nagy lehetőségeket rejt a beszédfelismerés hatékonyabbá és emberszerűbbé tételében.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Eredményeket és nem leépítést várnak az MI-től a vezérigazgatók

Egy friss felmérésből kiderül az is, hogy a nagyvállalatok vezetői már új normálisként tekintenek a bizonytalanságokkal teli gazdasági és politkai környezetre, és ennek megfelelően alakítják cégük stratégiáját.

A hónap témája

Hogyan vezessük be az MI-t szolgáltatásként?

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.

a melléklet támogatója a ONE Solutions

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Eredményeket és nem leépítést várnak az MI-től a vezérigazgatók

Hogyan vezessük be az MI-t szolgáltatásként?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!