Már jobban olvasnak szájról az algoritmusok, mint az emberek. A titok a gépi tanulásban rejlik.

Neurális hálók alkalmazásával növelik az arcfelismerő rendszerek hatékonyságát, ez a technika azonban más, biometrikus azonosítók és jelek értelmezésében is megállja a helyét. Az Oxfordi Egyetem, a Google DeepMind és a CIAR (Canadian Institute for Advanced Research) közös kutatásának összefoglalója rávilágított, hogy hasonlóan jó eredményeket lehet elérni, ha a technikát szájról olvasásra használják.

LipNet névre keresztelték azt a neurális hálót, ami képes felismerni az ajakmozdulatok közötti összefüggéseket. Videobeszélgetések során, a „tér- és időbeli vizuális jellemzők” elemzésével 93,4 százalékos hatékonyságot tudtak kihozni a rendszerből a kutatók. Mindez azt jelenti, hogy még a profi szájról olvasókat is lepipálja a neurális háló.

A LipNet abban a tekintetben is elsőnek számít, hogy nem csupán szófelismerésre képes, hanem az egyes szavak mondatszintű sorba rakásából következtetéseket von le, ezzel korrigálva a hibás szóazonosításokat.

Kemény dió

A szájról olvasás egyáltalán nem könnyű feladat, még azoknak sem, akik pedig rá vannak kényszerülve használatára. A hallásukban korlátozott emberek gyakran használják ezt a technikát másokkal való kommunikációra, ám az ő átlagos találati arányuk csupán 52,3 százalék.

„A gépi szájról olvasás hatalmas gyakorlati potenciállal bír, például néma diktálást tesz lehetővé nyilvános helyen, fedett beszélgetéseket segíthet, szövegfelismerésre használható zajos környezetben, de akár biometriai azonosításra vagy némafilmek feldolgozására is alkalmazható” – olvasható a kutatók összefoglalójában.

Van azonban egy szépséghibája a dolognak: jelenleg csak akkor képes a fent említett meggyőző találati arányra a LipNet, ha korlátozott szókincsű beszélgetésen futtatják le. 34 beszélő 1000 mondatára eresztették rá a rendszert, ráadásul ezek a mondatok is kötött struktúrájúak voltak. A rendelkezésre álló videók 88 százalékát használták fel gépi tanításra, a maradék 12 százalékot pedig ellenőrzésre.
 


Elemzés közben a beszélő szájára, illetve annak alakváltozására összpontosít a képfelismerő algoritmus. A videókat képkockákra bontva elemezi a látottakat, és az így szerzett adatok szolgálnak aztán a neurális háló bemeneteként. A mozgó szájat feltérképezve és számos rétegre bontva születnek meg a fonémák, melyekből aztán a szavak és mondatok összeállnak.

Mikor használhatjuk?

Sok idő fog még eltelni, mire a LipNet a valódi életben felhasználható, hatékony beszédértelmező eszköz lehet, ismerik el maguk a kutatók is. Ahhoz, hogy szinte bármilyen beszélgetésben megállja a helyét, az eddig betáplált adathoz képest nagyságrendekkel több információra van szükség, ráadásul fel kell készíteni különböző akcentusokra és az angolon kívül egyéb nyelvekre.

Aki pedig aggódik, hogy a jövőben az elsuttogott titkokat leolvassa egy algoritmus a szájáról, annak van egy egyszerű megoldásunk: takarja el a száját. Ez persze csak addig működik, amíg a hangfelismerő rendszerek szintén fel nem fejlődnek arra a szintre, hogy a suttogást is fel tudják ismerni és értelmezni.

Cloud & big data

A csaló hívások ellen kínál védelmet az Android legújabb funkciója

A trükkös hívások időben való észlelése segíthet a kontaktok személyes adataival való visszaélések és a mesterséges intelligenciával létrehozott mélyhamisítások elleni védekezésben is.
 
Hirdetés

Az AI mint vállalati működési réteg: hogyan alakul át a digitális operáció?

A vállalati digitalizáció következő szakaszát egyre kevésbé az új alkalmazások vagy önálló technológiai projektek határozzák meg. A fókusz fokozatosan a működés egészének átalakulása felé mozdul: hogyan lehet a folyamatokat gyorsabban, hatékonyabban és nagyobb üzleti kontroll mellett működtetni egy olyan környezetben, ahol az adatmennyiség, a rendszerek komplexitása és a reakcióidővel kapcsolatos elvárások folyamatosan növekednek.

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.
Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.