Újabb területen lettek jobbak a gépek nálunk

Szilágyi Szabolcs2016.11.09.Cloud & big data

Már jobban olvasnak szájról az algoritmusok, mint az emberek. A titok a gépi tanulásban rejlik.

Hirdetés

Neurális hálók alkalmazásával növelik az arcfelismerő rendszerek hatékonyságát, ez a technika azonban más, biometrikus azonosítók és jelek értelmezésében is megállja a helyét. Az Oxfordi Egyetem, a Google DeepMind és a CIAR (Canadian Institute for Advanced Research) közös kutatásának összefoglalója rávilágított, hogy hasonlóan jó eredményeket lehet elérni, ha a technikát szájról olvasásra használják.

LipNet névre keresztelték azt a neurális hálót, ami képes felismerni az ajakmozdulatok közötti összefüggéseket. Videobeszélgetések során, a „tér- és időbeli vizuális jellemzők” elemzésével 93,4 százalékos hatékonyságot tudtak kihozni a rendszerből a kutatók. Mindez azt jelenti, hogy még a profi szájról olvasókat is lepipálja a neurális háló.

A LipNet abban a tekintetben is elsőnek számít, hogy nem csupán szófelismerésre képes, hanem az egyes szavak mondatszintű sorba rakásából következtetéseket von le, ezzel korrigálva a hibás szóazonosításokat.

Kemény dió

A szájról olvasás egyáltalán nem könnyű feladat, még azoknak sem, akik pedig rá vannak kényszerülve használatára. A hallásukban korlátozott emberek gyakran használják ezt a technikát másokkal való kommunikációra, ám az ő átlagos találati arányuk csupán 52,3 százalék.

„A gépi szájról olvasás hatalmas gyakorlati potenciállal bír, például néma diktálást tesz lehetővé nyilvános helyen, fedett beszélgetéseket segíthet, szövegfelismerésre használható zajos környezetben, de akár biometriai azonosításra vagy némafilmek feldolgozására is alkalmazható” – olvasható a kutatók összefoglalójában.

Van azonban egy szépséghibája a dolognak: jelenleg csak akkor képes a fent említett meggyőző találati arányra a LipNet, ha korlátozott szókincsű beszélgetésen futtatják le. 34 beszélő 1000 mondatára eresztették rá a rendszert, ráadásul ezek a mondatok is kötött struktúrájúak voltak. A rendelkezésre álló videók 88 százalékát használták fel gépi tanításra, a maradék 12 százalékot pedig ellenőrzésre.

Elemzés közben a beszélő szájára, illetve annak alakváltozására összpontosít a képfelismerő algoritmus. A videókat képkockákra bontva elemezi a látottakat, és az így szerzett adatok szolgálnak aztán a neurális háló bemeneteként. A mozgó szájat feltérképezve és számos rétegre bontva születnek meg a fonémák, melyekből aztán a szavak és mondatok összeállnak.

Mikor használhatjuk?

Sok idő fog még eltelni, mire a LipNet a valódi életben felhasználható, hatékony beszédértelmező eszköz lehet, ismerik el maguk a kutatók is. Ahhoz, hogy szinte bármilyen beszélgetésben megállja a helyét, az eddig betáplált adathoz képest nagyságrendekkel több információra van szükség, ráadásul fel kell készíteni különböző akcentusokra és az angolon kívül egyéb nyelvekre.

Aki pedig aggódik, hogy a jövőben az elsuttogott titkokat leolvassa egy algoritmus a szájáról, annak van egy egyszerű megoldásunk: takarja el a száját. Ez persze csak addig működik, amíg a hangfelismerő rendszerek szintén fel nem fejlődnek arra a szintre, hogy a suttogást is fel tudják ismerni és értelmezni.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Ha a NASA ennyi rakétát állított volna a földbe, elkaszálták volna az űrprogramot

A SpaceX 2008 óta több mint 19 milliárd dollárt kapott a szövetségi kormánytól, és még többet kaszlálhat Trump elnök Aranykupola rakétavédelmi programján.

A hónap témája

Hogyan alakítja át az MI az ügyfélszolgálatot?

Azok a vállalatok, amelyek gyorsabban, intelligensebben és empatikusabban tudnak reagálni ügyfeleik kérdéseire, összességében értékesebb, hosszabb távú kapcsolatokat építhetnek ki.

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ha a NASA ennyi rakétát állított volna a földbe, elkaszálták volna az űrprogramot

Hogyan alakítja át az MI az ügyfélszolgálatot?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia