A természetes nyelvek gépi feldolgozása egyre gyorsabban fejlődik, és a befektetők körében is mind népszerűbb terület. Az autonóm beszéd- és hangfelismerő technológiát fejlesztő Speechmatics néhány hete zárt le egy 62 millió dollár értékű befektetési kört, az AI21 Labs nevű szoftvercég tegnap jelentett be egy 64 millió dolláros tőkebevonást 664 millió dolláros értékelés mellett, de érdemes megemlíteni például az élő szövegből átiratokat gyártó Verbitet is, amely tavaly év végén nem kevesebb mint 250 millió dollárhoz jutott, összességében pedig már majdnem 570 millió dollárnyi befektetői forrást szerzett.
A fenti befektetéseknek is köszönhetően lassan realitássá válik, hogy a számítógépek képesek lesznek megérteni a természetes beszédet vagy írást, ami nem is olyan régen még elérhetetlen célnak tűnt az emberi kommunikáció változékonysága és dinamizmusa miatt. A fejlesztések gyakorlati alkalmazásai egyelőre nem tűnnek valami nagyszabású dolognak, amennyiben jórészt a felesleges eszközök hangvezérléséről vagy az automatizált feliratozásról szólnak, de a technológia valódi ereje nemsokára már abban is megmutatkozhat, hogy alapvetően hatással lesz a nyelvhez fűződő viszonyunkra, a beszéd keletkezésére vagy befogadására.
A VentureBeat összeállítása ennek kapcsán kiemeli azokat az alkalmazásokat és bővítményeket, amelyek a dokumentumok gyors elemzésére és tartalmi összefoglalására szolgálnak, hogy az időhiányban szenvedő felhasználók minél hamarabb ismerhessék meg a hosszabb és összetettebb szövegek lényegét. Ez nyilván növeli a hatékonyságot, de ma még csak találgatni lehet, hogy milyen következményekkel jár az árnyalatok, a retorikai erő és ezen keresztül a további jelentésrétegek elvesztése a természetes nyelvek azon képességének kiiktatásával, hogy egy-egy témát több oldalról közelítsen meg, szerteágazó következtetésekkel vagy többrétegű metaforák használatával.
A nyelv ugyanis nincs tökéletes átfedésben az emberi fogalmakkal, ebben a tekintetben tehát nem teljesen hatékony, viszont éppen emiatt alkamas arra, hogy különböző szinteken gyakorolják a képzett és kevésbé képzett nyelvhasználók. A cikk szerint tehát nem az a kérdés, hogy a számítógép mennyire képes megérteni a kimondott vagy leírt szavakat és mondatokat, hanem az, hogy mennyire lesz képes az emberi fogalmak és absztrakció elemzésére, vagyis milyen pontossággal tárja fel a beszélő vagy író tényleges szándékait. A mesterséges intelligenciának ilyen értelemben még hosszú utat kell megtennie, hogy megközelítse az emberi intelligenciát.
Sokat haladtak, de még több van előttük
Mivel ennek alapján a szavak és minták felismerése nem egyenlő a természetes nyelv megértésével, nagyon kényes kérdés, hogy mire és hogyan használjuk az új technológiákat, hiszen a szöveg jelentésének részleges feláldozása elfogadhatatlan az olyan területeken, mint amilyenek a büntetőeljárások vagy mondjuk a politikai döntéshozatal. Nem véletlen, hogy az ilyen irányú fejlesztéseket számos iparágban figyelik árgus szemekkel, és a befektetőket is vonzza a természetes nyelvek feldolgozásának gyors és látványos fejlődése, de a piaci igény ellenére komoly kihavásokat kell még leküzdeni az ember-gép interfészek új szintre emelésében.
Ilyen kihívás egyébként a méltányosság kérdése is, amennyiben a beszédfelismerő alkalmazásokból jelenleg a globális populáció egy aránylag kis része profitál. A rendszerek betanításához szükséges adatokat jellemzően a szakemberek fésülik át és osztályozzák, amiből az is következik, hogy a modellek pontossága csak a kommunikációban résztvevők egy szűk csoportjának lesz kielégítő – és borítékolható módon mindig azoknak, akiket a legértékesebb fogyasztónak tartanak. A nehézséget nem csak az jelenti, hogy világszerte több mint 7 ezer beszélt nyelvet tartanak számon, de a beszédfelismerés pontossága még a Google vagy az Amazon alkalmazásaiban is eltér attól függően, hogy mondjuk fehér vagy afrikai-amerikai felhasználóval van dolguk.
Ez utóbbi területen ígérnek előrelépést az olyan fejlesztések, mint az említett Speechmatics mesterséges intelligenciája, amelyik állítólag ebben az esetben 45 százalékkal kevesebb hibát vét a nagy szolgáltatók technológiáival összehasonlítva – ez a különbség egy átlagos hosszúságú angol mondat esetében plusz-mínusz három félreértett szónak felelne meg. A cég ezzel együtt is csak 34 nyelvet dolgozott fel a sok ezerből, bár a beszámolók alapján már látványos előrelépéseket ért el például az írásjelek, a számok, a pénznemek vagy a címek feldolgozásában, amelyekkel a beszédfelismerő motoroknak hagyományosan sok nehézsége adódik.
Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?
A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak