A nagy mennyiségű adatok elemzésére alkalmas technológiák jelentős változást hozhatnak itthon is a szövegbányászati megoldások használata terén. Olcsón őrizhetnek meg a vállalatok nagy mennyiségű adatot nyers formában akár hosszabb időtávra is, amelyeket később, egy-egy újabb üzleti kérdés felmerülésekor elemezhetnek ki.
Az egyre szélesebb körben használt okostelefonok, az üzleti alkalmazások vagy éppen a közösségi oldalak elképesztő ütemben ontják magukból az információkat, ezek nagy részét szöveges formában. A felmérések szerint a vállalatok által hasznosítható információtömeg csupán ötöde létezik strukturált, azaz adatbázisokban rendszerezett információként, a maradék 80 százalék pedig strukturálatlan információként jelenik meg (strukturálatlan adat a szöveg, a kép, a videó vagy a hang). Ezért szinte megoldhatatlan az a feladat, hogy az ugyanabban a témakörben készült anyagokat kivétel nélkül megtaláljuk; ebben a sziszifuszi munkában nyújthatnak segítséget a szövegbányászati megoldások, amelyek értelmezhetővé és elemezhetővé teszik az átláthatatlan információtömeget.
A szövegbányászati módszerek minden olyan környezetben jól használhatók, ahol nagy mennyiségű adatokat, illetve szöveget kell feldolgozni, ilyenek lehetnek például a szenzorokból, az ügyfelektől vagy informatikai rendszerek logjaiból származó adatok, de akár azt is ki lehet elemezni, hogy milyen hangulati töltéssel bíró környezetben szerepel egy cég neve (sentiment elemzés).
Nem véletlen, hogy már a hazai pénzintézeteknél és távközlési cégeknél is napirenden van a nem strukturált adatok nagy mennyiségű elemzése, elsősorban az ügyfélkapcsolat-kezelés területén. A további felhasználási lehetőségek között van például a jogi szövegek, szerződések elemzése, a piackutatás, de egyre inkább az
üzleti hírszerzés területére is bekerülnek a szövegbányászati megoldások.
Hangból szöveg ■ A szövegbányászat itthon is már több évtizedes múltra visszatekintő terület, a Montanánál például az első ilyen szoftvert 1991-ben installálták az Országgyűlésben - hangsúlyozta Vadász Pál, a Montana Tudásmenedzsment Kft. ügyvezetője. A terület ezzel együtt sokáig valóban mintha Csipkerózsika-álmot aludt volna, és csak a 2000-es évek közepétől kezdtek ismét érdeklődni a szervezetek a téma iránt. A szövegbányászati megoldások egyik legnagyobb piaca hagyományosan a közigazgatás, ezen belül is a rendvédelmi szervek, a Montana-ügyfelek között van a rendőrség és a vámügyőrség is, de ezen kívül nem publikus referenciákkal is rendelkeznek ezen a területen.
Az utóbbi időben több magyar fejlesztő is jelentkezett a szövegbányászati megoldásokat más területekkel ötvőző megoldásokkal, amelyek tovább szélesítik a felhasználási lehetőségeket. A Montana a Vodafone Magyarországgal közösen fejlesztette ki
a Monspeech nevű alkalmazást, amely lehetővé teszi, hogy a telefonbeszélgetéseket szöveggé alakítsák, és elemezzék azok tartalmát. A fejlesztés jelenleg is folyik, a pilot projekt júniusban indul el a Vodafone-nál. A rendszer segítségével a telefonos ügyfélszolgálati kolléga előtt a beszélgetéssel párhuzamosan, automatikusan megjelennek a hallottakkal kapcsolatos információk, így például a különböző díjcsomagok árazása. Az azonnali online kiszolgálás mellett a meglévő hangadattárak feldolgozására és elemzésre is alkalmas lehet a rendszer.
Hasonló megoldással lépett a piacra tavaly a Clementine Consulting (korábban SPSS Hungary) is: az AITIA-val összefogva 2011-ben egy hang- és szövegbányászati technológiákat ötvöző megoldással állt elő
Clemvoice néven, amely lehetővé teszi, hogy például egy call centerben lezajlott összes beszélgetést automatikusan szöveggé alakítsák, és ezeket elemezzék. A rendszer már használják az Aegon Magyarországnál, ahol közel egymillió hívást kezelnek évente. A rendszerrel egy óra alatt négyórányi hanganyagot lehet feldolgozni, így a hívás másnapján a telesales már konkrét ajánlattal hívhatja fel az ügyfelet, de a szöveganalitikai megoldás révén a marketing, az analitikus CRM és a PR-részleg is új információkhoz juthat az ügyfelekről.
Nagy adatmennyiségből olcsó elemzések ■ A nagy mennyiségű adatok elemzésére használható technológiák, mint
a nyílt forráskódú Hadoop keretrendszer használata abból a szempontból hoz jelentős változást, hogy immár viszonylag olcsón - tömeghardvereken alapuló szerverinfrastruktúrát használva - a vállalatok nagy mennyiségű adatot őrizhetnek meg nyers formában hosszabb időtávra is, amelyeket később, egy-egy újabb üzleti kérdés felmerülésekor elemezhetnek ki - mondta
Kása Károly, a Weblib Kft. fejlesztési igazgatója.
A WebLib a már meglévő kereső és szövegbányászati termékeit a közelmúltban összecsomagolta a Hadoop technológiával, és az irányított crawler, adatfeldolgozási és információkinyerő platformot InfoHarvester néven kínálja. A megoldás első felhasználója a Jobmonitor, ahol különböző forrásokból gyűjtik össze az álláshirdetéseket, amelyek visszamenőleges elemzésével jól nyomon követhetők a munkaerőpiac változásai is.