Bár a számítógépek manapság már a telefonjainkba is beköltöztek, sokan még mindig nem tudnak arról, hány területen használhatjuk már saját hangunkat is a velük való kommunikációban.
Az informatika általánossá válása közben egyvalami szinte mindenhol ugyanolyan maradt a kezdetek óta, méghozzá a szövegek bevitele. Billentyűzeten pötyögjük be a szavakat, és a képernyőn keresgélve kattintgatjuk le vagy írjuk le a parancsokat. Bár az még mindig messze van, hogy kedélyesen elbeszélgessünk saját házi robotunkkal, de már manapság is több helyen használjuk a digitális beszédfelismerés valamilyen formáját, csak épp nem tudunk róla.
Egy biztos: ne így kezdjünk hozzá...
Alapszintű nyelvtudás ■ Az automatikus beszédfelismerés (Advanced Speech Recognition, ASR) több szinten létező tudomány. A legfelsőbb szint természetesen az lenne, ha egy számítógép azonnal megismerné és megértené minden szavunkat, ezért diktálhatnánk ugyanúgy, mintha a titkárnőnknek mondanánk valamilyen folyó szöveget. Ehelyett a manapság létező diktálóprogramokba még mindig kissé körülményesen, speciális módon kell "belepréselni" a mondanivalónkat, valahogy így:
"Ehelyett a manapság létező diktálóprogramokba még mindig kissé körülményesen VESSZŐ speciális módon kell IDÉZŐJEL belepréselni IDÉZŐJEL a mondanivalónkat VESSZŐ valahogy így KETTŐSPONT SORTÖRÉS."Látható, hogy, bár vannak már kifejezetten diktálásra kifejlesztett szoftverek, ezek használatához még mindig alapos betanulás szükséges. Ez ráadásul nem csak a felhasználót érinti, hanem magát a szoftvert is: hosszú hangmintavételezési procedúra során kell előre megadott szavakat, mondatokat beolvasnunk, hogy a gép megjegyezze saját hangkarakterünket, beszédmodorunkat.
Félszavakból is ■ A beszédfelismerés sokkal jobban működik olyan környezetekben, ahol nem egy teljes nyelvi szókészletet kell felismernie és értelmeznie a gépnek. Jó példa ezekre a főként angol nyelvterületen használt üzenetrögzítők illetve telefonos "útválasztók" új generációja. Itt már nem a telefon billentyűzetének megnyomásával kell opciókat választani, hanem a gép által felkínált lehetőségek valamelyikét szóban kell bemondanunk. Ilyenkor jóval kevesebb a válaszadási lehetőség (gyakran a yes / no lehetőségekre korlátozódik), ezért a válaszok detektálása sokkal egyszerűbb.
Az ASR egyik legfrissebb felhasználási területei az okostelefonok hang alapú keresési és vezérlési szolgáltatásai. Az iPhone-okon is elérhető ilyen megoldás, ám a szakértők szerint az Android még nagyobb lehetőség előtt áll a Google hatalmas szöveges keresési adatbázisának köszönhetően.
A képre kattintva az infografika eredeti méretben, új ablakban nyílik meg
Forrás: Medicaltranscription, Mashable