Gyorsabban és pontosabban olvassa a kézírást a Google MI-segédje

Bitport2019.03.11.Cloud & big data

Jelentős lépést tett előre a Gboard kézírás-beviteli funkciója, ami a latin betűs nyelvek alatt már a korábbinál gyorsabban, pontosabban és helytakarékosabban működik.

Jelentős fejlődésen ment keresztül a Google Gboard virtuális billentyűzet kézírás-felismerő funkciója: a korábbinál gyorsabb MI-támogatással 20-40 százalékkal kevesebbet hibázik azoknál a gépi tanuló modelleknél, amelyeket most levált az újabb rendszer. A fejlesztők a Google AI Blogjának bejegyzésében számolnak be az eredményekről: ennek alapján a gépi tanuló rendszerek fejlődése az új architektúrák és tanítási módszertanok révén lehetővé tette, hogy felülvizsgálják eredeti modelljüket.

A latin betűs nyelvekre alkalmazva már az év elejétől bevezették a következő megoldást, jelenleg pedig azon dolgoznak, hogy megfelelő modelleket rendelhessenek hozzá a Gboard, pontosabban a Google Handwriting Input összes támogatott nyelvéhez – ezek száma a Gboard for Android esetében már a százas határt is átlépte. A fejlesztők a hibaszázalék látványos csökkentése kapcsán arra is kitérnek, hogy a pontosság javítása önmagában nem lenne elég, ha nem párosulna az alkalamzás sebességének növekedésével.

Folyamatos fejlesztések jönnek a Gboardon

A lehető legalacsonyabb késleltetési idő biztosítására így a TensorFlow keretrendszerben tanított modellek helyett már TensorFlow Lite modelleket használnak. A kézírás-felismerő stack helyben, a felhasználó készülékén fut, és egy teljes értékű TensorFlow implementációhoz képest nem csak az interferencia ideje csökken, de a lényegesen kisebb APK-val a Gboard által igénybe vett tárhelykapacitás is értelemszerűen kisebb lesz.

forrás: ai.googleblog.com

Maga a Google Handwriting Input egyébként már 2015 óta elérhető, a Gboard pedig 2018 közepétől támogatja egyaránt a kézírás- és billentyűzet-alapú bevitelt, vagyis a gépelés helyett "rajzolni" is lehet a szöveget a képernyőre. (Itt tényleg kézírásról van szó, ami időnként valóban praktikus lehet, de nem keverendő össze a gesztusokkal támogatott gépeléssel.) Az alkalmazás adatlapja szerint a Google Handwriting Input karbantartási módban van, és az új nyelvek mellett a továbbfejlesztett kézírás-felismerő funkciók is csak a Gboard alatt jönnek ki.

Hasnlóságot keres és valószínűséget számol

A bevitelkor rögzített vonalszekvenciák időbélyeggel is jelölt pontokat határoznak meg – itt a bejegyzés szerint újdonságnak számít, hogy már nem csak a kimenet, hanem a bevitel is Bézier-görbékre épül, amelyek egyebek mellett konzisztens teljesítményt biztosítanak az érintőkijelzők eltérő pontosságától és mintavételi rátájától függetlenül. A görbéket olyan polinomok írják le, amelyeket a kezdő- és végpontok mellett a köztes kontrollpontok határoznak meg, így a példában szereplő "GO" szót is összesen 186 ilyen pont jellemzi.

forrás: ai.googleblog.com

A szekvenciákat feldolgozó visszacsatolt neurális hálózatok, amelyeket az írott karakterek (köztük akár a szmájlik) felismerésére tanítanak, hatékonyan azonosítják a párhuzamosságokat, és nem csak magas fokú predikciós teljesítményre képesek, de a kapcsolatok számának alacsonyan tartásával a fájlok méretét sem engedik elszabadulni. Az eredményeket a rögzített görbékből és az ábécé betűiből álló mátrixból származtatják, miután olyan súlyozókat is figyelembe vesznek, mint amilyen mondjuk az adott karakterszekvenciák gyakorisága az éppen alkalmazott nyelvben.

A rendszer működéséről részletesebb (és persze sokkal szakszerűbb) ismertető a Google AI Blog bejegyzésében olvasható.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

A macskanyávogást is lefordítaná a kínai mesterséges intelligencia

A tudósok régóta kutatják, de sokkal közelebb nem kerültek az állatok kommunikációjának emberi nyelvre ültetéséhez. A Baidu legújabb MI-modelljének áprilisi bemutatását követően ebbe az irányba is tenne egy nagy lépést.

Hirdetés

Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?

A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió.

A hónap témája

Hogyan alakítja át az MI az ügyfélszolgálatot?

Azok a vállalatok, amelyek gyorsabban, intelligensebben és empatikusabban tudnak reagálni ügyfeleik kérdéseire, összességében értékesebb, hosszabb távú kapcsolatokat építhetnek ki.

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

A macskanyávogást is lefordítaná a kínai mesterséges intelligencia

Hogyan alakítja át az MI az ügyfélszolgálatot?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia