Már jobban olvasnak szájról az algoritmusok, mint az emberek. A titok a gépi tanulásban rejlik.

Neurális hálók alkalmazásával növelik az arcfelismerő rendszerek hatékonyságát, ez a technika azonban más, biometrikus azonosítók és jelek értelmezésében is megállja a helyét. Az Oxfordi Egyetem, a Google DeepMind és a CIAR (Canadian Institute for Advanced Research) közös kutatásának összefoglalója rávilágított, hogy hasonlóan jó eredményeket lehet elérni, ha a technikát szájról olvasásra használják.

LipNet névre keresztelték azt a neurális hálót, ami képes felismerni az ajakmozdulatok közötti összefüggéseket. Videobeszélgetések során, a „tér- és időbeli vizuális jellemzők” elemzésével 93,4 százalékos hatékonyságot tudtak kihozni a rendszerből a kutatók. Mindez azt jelenti, hogy még a profi szájról olvasókat is lepipálja a neurális háló.

A LipNet abban a tekintetben is elsőnek számít, hogy nem csupán szófelismerésre képes, hanem az egyes szavak mondatszintű sorba rakásából következtetéseket von le, ezzel korrigálva a hibás szóazonosításokat.

Kemény dió

A szájról olvasás egyáltalán nem könnyű feladat, még azoknak sem, akik pedig rá vannak kényszerülve használatára. A hallásukban korlátozott emberek gyakran használják ezt a technikát másokkal való kommunikációra, ám az ő átlagos találati arányuk csupán 52,3 százalék.

„A gépi szájról olvasás hatalmas gyakorlati potenciállal bír, például néma diktálást tesz lehetővé nyilvános helyen, fedett beszélgetéseket segíthet, szövegfelismerésre használható zajos környezetben, de akár biometriai azonosításra vagy némafilmek feldolgozására is alkalmazható” – olvasható a kutatók összefoglalójában.

Van azonban egy szépséghibája a dolognak: jelenleg csak akkor képes a fent említett meggyőző találati arányra a LipNet, ha korlátozott szókincsű beszélgetésen futtatják le. 34 beszélő 1000 mondatára eresztették rá a rendszert, ráadásul ezek a mondatok is kötött struktúrájúak voltak. A rendelkezésre álló videók 88 százalékát használták fel gépi tanításra, a maradék 12 százalékot pedig ellenőrzésre.
 


Elemzés közben a beszélő szájára, illetve annak alakváltozására összpontosít a képfelismerő algoritmus. A videókat képkockákra bontva elemezi a látottakat, és az így szerzett adatok szolgálnak aztán a neurális háló bemeneteként. A mozgó szájat feltérképezve és számos rétegre bontva születnek meg a fonémák, melyekből aztán a szavak és mondatok összeállnak.

Mikor használhatjuk?

Sok idő fog még eltelni, mire a LipNet a valódi életben felhasználható, hatékony beszédértelmező eszköz lehet, ismerik el maguk a kutatók is. Ahhoz, hogy szinte bármilyen beszélgetésben megállja a helyét, az eddig betáplált adathoz képest nagyságrendekkel több információra van szükség, ráadásul fel kell készíteni különböző akcentusokra és az angolon kívül egyéb nyelvekre.

Aki pedig aggódik, hogy a jövőben az elsuttogott titkokat leolvassa egy algoritmus a szájáról, annak van egy egyszerű megoldásunk: takarja el a száját. Ez persze csak addig működik, amíg a hangfelismerő rendszerek szintén fel nem fejlődnek arra a szintre, hogy a suttogást is fel tudják ismerni és értelmezni.

Cloud & big data

Kitessékelnék a gyerekeket a közösségi médiából a francia elnök szakértői

Az Emmanuel Macron által felkért szakértői bizottság egyáltalán nem adna okostelefont a 13 éven aluliak kezébe, a közösségi médiát pedig 18 pluszos szolgáltatásként kezelné.
 
Hirdetés

Biztonságos M2M kommunikáció nagyvállalti környezetben a Balasystól

A megnövekedett támadások miatt az API-k biztonsága erősen szabályozott és folyamatosan auditált terület, amelynek védelme a gépi kommunikáció (M2M) biztonságossá tételén múlik.

A válasz egyszerű: arról függ, hogy hol, hogyan és milyen szabályozásoknak és üzleti elvárásoknak megfelelően tároljuk az információt. A lényeg azonban a részletekben rejlik.

a melléklet támogatója az EURO ONE Számítástechnikai Zrt.

CIO KUTATÁS

TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?

Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »

Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.