Nem vesznek el a szövegtengerben

Mozsik Tibor2012.05.31.

A nagy mennyiségű adatok elemzésére alkalmas technológiák jelentős változást hozhatnak itthon is a szövegbányászati megoldások használata terén. Olcsón őrizhetnek meg a vállalatok nagy mennyiségű adatot nyers formában akár hosszabb időtávra is, amelyeket később, egy-egy újabb üzleti kérdés felmerülésekor elemezhetnek ki.

Az egyre szélesebb körben használt okostelefonok, az üzleti alkalmazások vagy éppen a közösségi oldalak elképesztő ütemben ontják magukból az információkat, ezek nagy részét szöveges formában. A felmérések szerint a vállalatok által hasznosítható információtömeg csupán ötöde létezik strukturált, azaz adatbázisokban rendszerezett információként, a maradék 80 százalék pedig strukturálatlan információként jelenik meg (strukturálatlan adat a szöveg, a kép, a videó vagy a hang). Ezért szinte megoldhatatlan az a feladat, hogy az ugyanabban a témakörben készült anyagokat kivétel nélkül megtaláljuk; ebben a sziszifuszi munkában nyújthatnak segítséget a szövegbányászati megoldások, amelyek értelmezhetővé és elemezhetővé teszik az átláthatatlan információtömeget.

A szövegbányászati módszerek minden olyan környezetben jól használhatók, ahol nagy mennyiségű adatokat, illetve szöveget kell feldolgozni, ilyenek lehetnek például a szenzorokból, az ügyfelektől vagy informatikai rendszerek logjaiból származó adatok, de akár azt is ki lehet elemezni, hogy milyen hangulati töltéssel bíró környezetben szerepel egy cég neve (sentiment elemzés).

Nem véletlen, hogy már a hazai pénzintézeteknél és távközlési cégeknél is napirenden van a nem strukturált adatok nagy mennyiségű elemzése, elsősorban az ügyfélkapcsolat-kezelés területén. A további felhasználási lehetőségek között van például a jogi szövegek, szerződések elemzése, a piackutatás, de egyre inkább az üzleti hírszerzés területére is bekerülnek a szövegbányászati megoldások.

Hangból szöveg ■ A szövegbányászat itthon is már több évtizedes múltra visszatekintő terület, a Montanánál például az első ilyen szoftvert 1991-ben installálták az Országgyűlésben - hangsúlyozta Vadász Pál, a Montana Tudásmenedzsment Kft. ügyvezetője. A terület ezzel együtt sokáig valóban mintha Csipkerózsika-álmot aludt volna, és csak a 2000-es évek közepétől kezdtek ismét érdeklődni a szervezetek a téma iránt. A szövegbányászati megoldások egyik legnagyobb piaca hagyományosan a közigazgatás, ezen belül is a rendvédelmi szervek, a Montana-ügyfelek között van a rendőrség és a vámügyőrség is, de ezen kívül nem publikus referenciákkal is rendelkeznek ezen a területen.

Az utóbbi időben több magyar fejlesztő is jelentkezett a szövegbányászati megoldásokat más területekkel ötvőző megoldásokkal, amelyek tovább szélesítik a felhasználási lehetőségeket. A Montana a Vodafone Magyarországgal közösen fejlesztette ki a Monspeech nevű alkalmazást, amely lehetővé teszi, hogy a telefonbeszélgetéseket szöveggé alakítsák, és elemezzék azok tartalmát. A fejlesztés jelenleg is folyik, a pilot projekt júniusban indul el a Vodafone-nál. A rendszer segítségével a telefonos ügyfélszolgálati kolléga előtt a beszélgetéssel párhuzamosan, automatikusan megjelennek a hallottakkal kapcsolatos információk, így például a különböző díjcsomagok árazása. Az azonnali online kiszolgálás mellett a meglévő hangadattárak feldolgozására és elemzésre is alkalmas lehet a rendszer.

Hasonló megoldással lépett a piacra tavaly a Clementine Consulting (korábban SPSS Hungary) is: az AITIA-val összefogva 2011-ben egy hang- és szövegbányászati technológiákat ötvöző megoldással állt elő Clemvoice néven, amely lehetővé teszi, hogy például egy call centerben lezajlott összes beszélgetést automatikusan szöveggé alakítsák, és ezeket elemezzék. A rendszer már használják az Aegon Magyarországnál, ahol közel egymillió hívást kezelnek évente. A rendszerrel egy óra alatt négyórányi hanganyagot lehet feldolgozni, így a hívás másnapján a telesales már konkrét ajánlattal hívhatja fel az ügyfelet, de a szöveganalitikai megoldás révén a marketing, az analitikus CRM és a PR-részleg is új információkhoz juthat az ügyfelekről.

Nagy adatmennyiségből olcsó elemzések ■ A nagy mennyiségű adatok elemzésére használható technológiák, mint a nyílt forráskódú Hadoop keretrendszer használata abból a szempontból hoz jelentős változást, hogy immár viszonylag olcsón - tömeghardvereken alapuló szerverinfrastruktúrát használva - a vállalatok nagy mennyiségű adatot őrizhetnek meg nyers formában hosszabb időtávra is, amelyeket később, egy-egy újabb üzleti kérdés felmerülésekor elemezhetnek ki - mondta Kása Károly, a Weblib Kft. fejlesztési igazgatója.

A WebLib a már meglévő kereső és szövegbányászati termékeit a közelmúltban összecsomagolta a Hadoop technológiával, és az irányított crawler, adatfeldolgozási és információkinyerő platformot InfoHarvester néven kínálja. A megoldás első felhasználója a Jobmonitor, ahol különböző forrásokból gyűjtik össze az álláshirdetéseket, amelyek visszamenőleges elemzésével jól nyomon követhetők a munkaerőpiac változásai is.

Miért kell foglalkozni adatelemzéssel?
A marketingesek felkészületlenül várják az adatáradatot

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Csuklóból hozta a Turing-tesztet az OpenAI egyik modellje

Állítólag ez az első eset, hogy gyakorlati bizonyítékot szolgáltatnak egy gép sikeres Turing-tesztjére, bár az intelligencia megfejtéséhez ettől még nem jutottunk sokkal közelebb.

A hónap témája

Hol tart a digitális átalakulás Európában és Magyarországon?

Körképünkben áttekintjük, hogy szűkebb és bővebb környezetünkben mit sikerült elérni a digitális gazdaság és életvitel felé vezető úton. Spolier: nem állunk olyan rosszul, mint gondolná, és nem állunk olyan jól, mint szeretné.

a melléklet támogatója a One Solutions

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Csuklóból hozta a Turing-tesztet az OpenAI egyik modellje

Hol tart a digitális átalakulás Európában és Magyarországon?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia