Ha minden jól megy, lassan elfelejthetjük azokat az értelmetlen betűhalmazokat, amelyeket a hagyományos szövegfelismerő szoftverek (OCR) adnak ki magukból végeredmény gyanánt, amennyiben a digitalizálásra váró anyag egy kicsit is eltér a jól strukturált folyószövegtől.
Átadás kulcsrakész állapotban
Az Amazon leányvállalataként működő AWS ugyanis előállt cloudos portfóliója legújabb elemével. A még tavaly novemberben beharangozott Textract szolgáltatás úgy ad erős mesterséges intelligenciával támogatott eszközt a felhasználók kezébe, hogy azoknak semmiféle ilyen irányú előképzettségre nincs szüksége. A nyomtatott anyagokról készült digitális másolatot az amerikai cég megoldása a korábban megszokottnál lényegesen jobb hatásfokkal, az eredetivel megegyező struktúrában tudja számítógépek számára feldolgozható adattömeggé konvertálni.
Ahogy ebből a rövid tavalyi bemutatóból is kitűnik, a rendszer nem csupán gyorsan dolgozik, de közben felismeri a táblázatokat és a különböző űrlapokat is. Ezeket pedig nem sima szövegként, gépiesen írja egymás mellé, hanem ugyanolyan formában rögzíti, ahogy azt az eredeti dokumentum logikája megköveteli.
A táblázatokból kinyert információk tehát digitálisan is táblázatos formában születnek meg, a kitöltött űrlapmezőknél pedig nem az elrendezés, hanem az adatok típusa lesz a döntő. Utóbbi esetében a karaktersorokat például nem "agyatlanul" vizsgálja, hanem felismeri a személyi számot, a születési időt, a társadalombiztosítási kódot stb. Ráadásul a rendszer tanulni is képes: ha egy űrlapon átrendezik a mezőket, az sem hozza zavarba a gépi feldolgozást, mert azonosítja az eltérő tartalmú mezőket és annak megfelelően rögzíti az adatokat.
A jól strukturált digitalizálás legnagyobb előnye, hogy így nincs szükség emberi beavatkozásra, a bevitt adatok utólagos javítására. Az ügyfélnek csak azt kell eldöntenie, hogy hol és mire használja fel a frissen elkészült adattengert.
Pár cent és más semmi
A cég egyelőre három amerikai központjából, valamint az európai ügyfeleket kiszolgáló ír bázisról kínálja a Textract képességeit, de a tervek szerint folyamatban van a földrajzi lefedettség kiterjesztése. Ami az árakat illeti, az függ a mennyiségtől és az elvégzendő feladat összetettségétől is: laponként a szó szerint fillérektől a pár forinting terjed a skála.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak