Neurális hálók alkalmazásával növelik az arcfelismerő rendszerek hatékonyságát, ez a technika azonban más, biometrikus azonosítók és jelek értelmezésében is megállja a helyét. Az Oxfordi Egyetem, a Google DeepMind és a CIAR (Canadian Institute for Advanced Research) közös kutatásának összefoglalója rávilágított, hogy hasonlóan jó eredményeket lehet elérni, ha a technikát szájról olvasásra használják.
LipNet névre keresztelték azt a neurális hálót, ami képes felismerni az ajakmozdulatok közötti összefüggéseket. Videobeszélgetések során, a „tér- és időbeli vizuális jellemzők” elemzésével 93,4 százalékos hatékonyságot tudtak kihozni a rendszerből a kutatók. Mindez azt jelenti, hogy még a profi szájról olvasókat is lepipálja a neurális háló.
A LipNet abban a tekintetben is elsőnek számít, hogy nem csupán szófelismerésre képes, hanem az egyes szavak mondatszintű sorba rakásából következtetéseket von le, ezzel korrigálva a hibás szóazonosításokat.
Kemény dió
A szájról olvasás egyáltalán nem könnyű feladat, még azoknak sem, akik pedig rá vannak kényszerülve használatára. A hallásukban korlátozott emberek gyakran használják ezt a technikát másokkal való kommunikációra, ám az ő átlagos találati arányuk csupán 52,3 százalék.
„A gépi szájról olvasás hatalmas gyakorlati potenciállal bír, például néma diktálást tesz lehetővé nyilvános helyen, fedett beszélgetéseket segíthet, szövegfelismerésre használható zajos környezetben, de akár biometriai azonosításra vagy némafilmek feldolgozására is alkalmazható” – olvasható a kutatók összefoglalójában.
Van azonban egy szépséghibája a dolognak: jelenleg csak akkor képes a fent említett meggyőző találati arányra a LipNet, ha korlátozott szókincsű beszélgetésen futtatják le. 34 beszélő 1000 mondatára eresztették rá a rendszert, ráadásul ezek a mondatok is kötött struktúrájúak voltak. A rendelkezésre álló videók 88 százalékát használták fel gépi tanításra, a maradék 12 százalékot pedig ellenőrzésre.
Elemzés közben a beszélő szájára, illetve annak alakváltozására összpontosít a képfelismerő algoritmus. A videókat képkockákra bontva elemezi a látottakat, és az így szerzett adatok szolgálnak aztán a neurális háló bemeneteként. A mozgó szájat feltérképezve és számos rétegre bontva születnek meg a fonémák, melyekből aztán a szavak és mondatok összeállnak.
Mikor használhatjuk?
Sok idő fog még eltelni, mire a LipNet a valódi életben felhasználható, hatékony beszédértelmező eszköz lehet, ismerik el maguk a kutatók is. Ahhoz, hogy szinte bármilyen beszélgetésben megállja a helyét, az eddig betáplált adathoz képest nagyságrendekkel több információra van szükség, ráadásul fel kell készíteni különböző akcentusokra és az angolon kívül egyéb nyelvekre.
Aki pedig aggódik, hogy a jövőben az elsuttogott titkokat leolvassa egy algoritmus a szájáról, annak van egy egyszerű megoldásunk: takarja el a száját. Ez persze csak addig működik, amíg a hangfelismerő rendszerek szintén fel nem fejlődnek arra a szintre, hogy a suttogást is fel tudják ismerni és értelmezni.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak