A mesterséges intelligencia egyre közelebb kerül ahhoz, hogy úgy értelmezze az emberi beszélgetéseket, ahogyan azt mi tesszük.

A héten tartott Neural Information Processing Systems konferencián számoltak be a Massachusetts Institute of Technology (MIT) kutatói a hangalapú információ felismerése és feldolgozása terén elért eredményükről. Az MIT szakemberei olyan új módszert mutattak be, mellyel a számítógépek beszédfelismerésre tanítása anélkül mehet végbe, hogy az elhangzottakat először szöveges formára kellene alakítani.

Gyorsan haladunk, de még rengeteg a munka

A mélytanulás iránti érdeklődés fokozódásával folyamatosan javult a számítógépes beszédfelismerés teljesítménye. Ma már ott tartunk, hogy az algoritmizált fordítás alacsonyabb hibaszinttel dolgozik, mint a profi fordítók. Nemrég mi is írtunk arról, hogy a Microsoft új rekordot ért el az emberi szöveg felismerésében. Átlagosan csupán 5,9 százalékos arányban téveszti el a szavakat, ez az arány pedig már megegyezik vagy még jobb is a fordítással professzionális szinten foglalkozók teljesítményével.

Ehhez azonban intenzív tréning szükséges. A kutatóknak eddig meg kellett címkézni a hangforrás szavait a megfelelő szöveggel, hogy a tanulás során a kimondott hangok szavakká állhassanak össze. Ez körültekintő adatgyűjtést igényel, nem csoda, hogy a beszédfelismerő rendszerek még mindig képtelenek nyelvek ezreinek értelmezésére.

A tanulmány társszerzője, Jim Glass szerint ugyan nagy előrelépéseknek lehettünk tanúi az elmúlt évtizedben, főleg az Apple és a Google révén, de még mindig óriási munka áll előttünk ezen a téren. Nagyjából 7 ezer nyelvet használnak a Földön, ennek körülbelül két százalékát képesek az automatikus szövegfelismerési rendszerek valamilyen szinten kezelni.

A végső cél természetesen olyan gépek megalkotása, melyek képesek egy nyelv összetettségének és a szavak jelentésének megértésére anélkül, hogy először a szóban elhangzottakat írott formára kellene alakítani. Az angol terminológiában felügyelet nélküli tanulásnak (unsupervised learning) nevezett folyamat jelenti a kulcsot, ezen a téren alkottak kiemelkedőt az MIT kutatói.

Azonossági pontszám segíti a fordítást

Elképzelésük szerint, ha a szavak csoportosíthatók összefüggő képek sorozataként, és ezekről a képekről szövegre lehet asszociálni, akkor a hangforrás egész pontosan lefordítható szigorú tanítási procedúra nélkül is. Az elképzelés gyakorlatba ültetéséhez a kutatók egy több mint 2,5 millió, 205 különböző címke szerint kategorizált képből álló gyűjteményt használtak fel.
 


A modellt úgy alakították ki, hogy az kapcsolatot képzett a szavak és a velük kapcsolatos képek között. Minden egyes párosítás során létrejött egy, relevanciától függő azonossági pontszám. A kutatók az adatbázisban megtalálható képeket leíró hangfelvételeket alkalmaztak a hálózat bemeneteként, arra késztetve a rendszert, hogy a leírásnak legjobban megfelelő tíz képet dobja ki eredményül.

Ezek között a megfelelő képet csak 31 százalékos aránnyal adta vissza a rendszer, ami meglehetősen alacsony pontszám. Nem szabad ugyanakkor elfelejteni, hogy az egész módszer kezdetleges fázisban van, a gépi tanulással képzett hálózat anélkül ismert fel beszéd alapján szavakat, hogy bármilyen kiegészítő (szöveges vagy nyelvi) tudása lett volna a feladat megoldásához. A folyamat tehát mindenképpen fejlesztésre szorul, de ha sikerrel jár, az nagy lehetőségeket rejt a beszédfelismerés hatékonyabbá és emberszerűbbé tételében.

Cloud & big data

Van az a pénz... Kivették a kínai App Store-ból a WhatsAppot és Threadset

Peking szerint a Meta két mobil appja nemzetbiztonsági aggályokat vet fel.
 
Hirdetés

Adathelyreállítás pillanatok alatt

A vírus- és végpontvédelmet hatékonyan kiegészítő Zerto, a Hewlett Packard Enterprise Company platformfüggetlen, könnyen használható adatmentési és katasztrófaelhárítási megoldása.

Hol, milyen adatokat és hányszorosan tároljunk ahhoz, hogy biztonságban tudhassuk szervezetünk működését egy nem várt adatvesztési incidens esetén is?

a melléklet támogatója az EURO ONE Számítástechnikai Zrt.

CIO KUTATÁS

TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?

Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »

Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.