Már jobban olvasnak szájról az algoritmusok, mint az emberek. A titok a gépi tanulásban rejlik.

Neurális hálók alkalmazásával növelik az arcfelismerő rendszerek hatékonyságát, ez a technika azonban más, biometrikus azonosítók és jelek értelmezésében is megállja a helyét. Az Oxfordi Egyetem, a Google DeepMind és a CIAR (Canadian Institute for Advanced Research) közös kutatásának összefoglalója rávilágított, hogy hasonlóan jó eredményeket lehet elérni, ha a technikát szájról olvasásra használják.

LipNet névre keresztelték azt a neurális hálót, ami képes felismerni az ajakmozdulatok közötti összefüggéseket. Videobeszélgetések során, a „tér- és időbeli vizuális jellemzők” elemzésével 93,4 százalékos hatékonyságot tudtak kihozni a rendszerből a kutatók. Mindez azt jelenti, hogy még a profi szájról olvasókat is lepipálja a neurális háló.

A LipNet abban a tekintetben is elsőnek számít, hogy nem csupán szófelismerésre képes, hanem az egyes szavak mondatszintű sorba rakásából következtetéseket von le, ezzel korrigálva a hibás szóazonosításokat.

Kemény dió

A szájról olvasás egyáltalán nem könnyű feladat, még azoknak sem, akik pedig rá vannak kényszerülve használatára. A hallásukban korlátozott emberek gyakran használják ezt a technikát másokkal való kommunikációra, ám az ő átlagos találati arányuk csupán 52,3 százalék.

„A gépi szájról olvasás hatalmas gyakorlati potenciállal bír, például néma diktálást tesz lehetővé nyilvános helyen, fedett beszélgetéseket segíthet, szövegfelismerésre használható zajos környezetben, de akár biometriai azonosításra vagy némafilmek feldolgozására is alkalmazható” – olvasható a kutatók összefoglalójában.

Van azonban egy szépséghibája a dolognak: jelenleg csak akkor képes a fent említett meggyőző találati arányra a LipNet, ha korlátozott szókincsű beszélgetésen futtatják le. 34 beszélő 1000 mondatára eresztették rá a rendszert, ráadásul ezek a mondatok is kötött struktúrájúak voltak. A rendelkezésre álló videók 88 százalékát használták fel gépi tanításra, a maradék 12 százalékot pedig ellenőrzésre.
 


Elemzés közben a beszélő szájára, illetve annak alakváltozására összpontosít a képfelismerő algoritmus. A videókat képkockákra bontva elemezi a látottakat, és az így szerzett adatok szolgálnak aztán a neurális háló bemeneteként. A mozgó szájat feltérképezve és számos rétegre bontva születnek meg a fonémák, melyekből aztán a szavak és mondatok összeállnak.

Mikor használhatjuk?

Sok idő fog még eltelni, mire a LipNet a valódi életben felhasználható, hatékony beszédértelmező eszköz lehet, ismerik el maguk a kutatók is. Ahhoz, hogy szinte bármilyen beszélgetésben megállja a helyét, az eddig betáplált adathoz képest nagyságrendekkel több információra van szükség, ráadásul fel kell készíteni különböző akcentusokra és az angolon kívül egyéb nyelvekre.

Aki pedig aggódik, hogy a jövőben az elsuttogott titkokat leolvassa egy algoritmus a szájáról, annak van egy egyszerű megoldásunk: takarja el a száját. Ez persze csak addig működik, amíg a hangfelismerő rendszerek szintén fel nem fejlődnek arra a szintre, hogy a suttogást is fel tudják ismerni és értelmezni.

Cloud & big data

Tesz a politikára az X

Egy félmilliárdos közösségi platform esetében aggasztó, ha nem erősíti, hanem éppen ellenkezőleg, gyengíti a politikai tartalmú álhírek elleni védőhálót. Az EU fenyeget, a népszavazásra készülő ausztrálok aggódnak.
 
A világ a "cloud first" stratégiát követi. Nem kérdés, hogy a IT-biztonságnak is azzal kell tartania a tempót, de nem felejtheti, hogy honnan startolt.

a melléklet támogatója a Clico Hungary

Hirdetés

Jön a Clico formabontó cloud meetupja, ahol eloszlatják a viharfelhőket

Merre mennek a bitek a felhőben, ledobja-e szemellenzőjét az IT-biztonságért felelős kolléga, ha felhőt lát, lesz-e két év múlva fejlesztés cloud nélkül? A Clico novemberben fesztelen szakmázásra hívja a szoftverfejlesztőket a müncheni sörkertek vibrálását idéző KEG sörművházba.

Minden vállalatnak számolnia kell az életciklusuk végéhez érő technológiák licencelési keresztkockázataival. Rogányi Dániel és Vincze-Berecz Tibor (IPR-Insights) írása.

Miért ne becsüljük le a kisbetűs jelszavakat? 1. rész

Miért ne becsüljük le a kisbetűs jelszavakat? 2. rész

Miért ne becsüljük le a kisbetűs jelszavakat? 3. rész

A felmérésekből egyre inkább kiderül, hogy az alkalmazottak megtartása vagy távozása sokszor azon múlik, amit a szervezetük nem csinál, nem pedig azon, amiben egymásra licitál a többi munkáltatóval.

Ezért fontos számszerűsíteni a biztonsági kockázatokat

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2023 Bitport.hu Média Kft. Minden jog fenntartva.