A vállalatoknak minden korábbinál részletesebb, sokféle típusú adatokat kell feldolgozniuk és elemezniük, az információkhoz pedig már nem csak az üzleti döntéshozók, de akár a cég ügyfelei is hozzájuthatnak. Mindez azonban újfajta problémákat okoz a vállalati adattárházak fejlesztésében és működtetésében.
Az adatok ócenjában úszunk: egyre több forrásból származó, exponenciálisan növekvő adatmennyiséget kell tudniuk kezelni a vállalatoknak, amelyek már nem csupán az üzleti rendszerekből, de bárhonnan - akár az internetről - származnak. Az utóbbi időszakban újabb bűvszó került elő a nemzetközi konferenciákon és cikkekben: a "Big Data", azaz magyarul "Nagy Adat" kifejezés a minden korábbinál részletesebb, sokféle típusú adatok komplex feldolgozását és elemzését fedi.
"Big Data" alatt azonban nem csupán a nemzetközi cégek több petabájtos adattárházait kell érteni, de ebbe a témakörbe tartozik minden olyan kérdés, amely arra irányul, hogy az addig használt adatmennyiségen túl miként lehet új típusú adatokat is kezelni. Magyarországon ugyanis már az is probléma, ha egy nagyvállalat 1 terabájtról 10 terabájtra akarja növelni az elemzési kapacitását.
Egyszerűbb, de jobb ■ - Itthon is hamarosan vége lesz annak az egyszerű világnak, hogy csupán az értékesítési adatokat teszik be az adattárházba, és számos új típusú adatot, így például a közösségi médiából származó adatok elemzését is lehetővé kell tenni - hangsúlyozta
Arató Bence, a BI Consulting Kft. ügyvezető igazgatója a cég által immár harmadik alkalommal megrendezett Adattárház Fórum nyitóelőadásában. Hozzátette: Magyországon is egy évtizede működnek olyan adatbányászati megoldások, amelyek az ügyfelek viselkedésének jobb megértését célozzák, ezek azonban többnyire nagyon komplex elemzési modellekkel működtek. A szakember szerint a Big Data "üzenet" része az is, hogy nagy adatmennyiségen az egyszerűbb modellek jobb eredményt hozhatnak, mint kevesebb adat részletes elemzése.
Arató Bence ismertette a BI Consulting által a napokban befejezett, a hazai adattárház-felhasználók körében első ízben elvégzett DW-Trek felmérésének előzetes eredményeit. Magyarországon 1995 tájékán jelentek meg az első adattárházak, mára pedig már minden iparágban megtalálhatók; a leggyakrabban a banki, biztosítói, telekommunikációs, kormányzati és Informatikai szektorban. A hazai adattárházak mérete rendkívül változó, a legnagyobbak között több mint 10 terabájtos adatbázisok találhatók. Az adattárházakat, illetve az egyes célelemzésekre kialakított adatpiacokat leggyakoribb statikus jelentések futtatására, ad-hoc elemezésekre, valamint operatív folyamatok támogatására használják.
Drámai átalakulások ■ A szakértő szerint az elmúlt 3-4 évben drámai átalakuláson ment át a piac: fél évtizede jelentek meg az első adattárház-gép (appliance) gyártók, tavaly májustól pedig a piac feljövőben lévő szereplőit sorban felvásárolták az IT óriások - a Sybase-t az SAP, a Greenplumot az EMC, a Netezzát az IBM, a Verticát a HP, legutóbb az Asterdatát pedig a Teradata kebelezte be.
A technológiai trendek közül kiemelkedik, hogy külföldön terjed a relatíve olcsón és egyszerűen használható, fürtözött szervereken futtatható nyílt forrású Hadoop keretrendszer, amelynek segítségével nagy adatmennyiségen egyszerűbb modellek segítségével futtathatók elemzések. A technológiát ma már csaknem minden óriáscég széles körben használja a hagyományos adattárháza mellett. Így például ezzel a módszerrel keres az Ebay az egyes termékekhez hasonló képeket mintegy 30 petabájtnyi adatban. Nálunk egyelőre az új technológiák nincsenek benne a köztudatban, és egyelőre majdnem mindenki a hagyományos relációs adatbázisokban, Oracle-ben vagy MSSQL-ben oldja meg az adatfeldolgozást – tette hozzá Arató Bence.
Mit hoz a jövő? ■ Stephen Brobst, a világ legnagyobb független adattárház-szállítója, a Teradata technológiai igazgatója keynote előadásában az adattárházak jövőjét vázolta. Arra a problémára hívta fel a figyelmet, hogy az adatmennyiség gyorsabban nő, mint amilyen mértékben a memória ára csökken. Sokkoló számokat sorolt: az elmúlt három évben több adatot állítottunk el, mint az elmúlt 40 ezer évben; az elmúlt 3 év során megnégyszereződött a tárolt adatok mennyisége. Hangsúlyozta: az üzleti döntéshozóknak stratégiával kell rendelkezniük arra vonatkozóan, hogy mit kezdenek ezzel a mennyiségű adattal.
Stephen Brobst egy korábbi konferencián; sajnos ez alkalommal
otthon hagyta legendás Hawaii-ingeit
Az adatok mennyisége ráadásul amiatt is folyton nő, mivel például a nagy online cégek már nem csak azt elemzik, hogy mit vásárolnak az oldalaikon, hanem azt is, hogy hány kattintással, honnan jutottak el oda. Amíg az ügyfélérték a tranzakciós adatokból deríthető ki, egyre nagyobb szerep jut az ügyfélélmény elemzésére, erre az előbb említett interakciós adatokból következtethetnek. Szintén az adatmennyiség óriási mértékű növekedését vetíti előre, hogy a már néhány centért beszerethető szenzorok egyre több termékbe, mérőórákba, járművekbe, sőt akár haszonállatokra – így például tehenekre – és akár emberekre is kerülnek, amelyek folyamatosan adatokat fognak szolgáltatni viselőjükről.
Az adatelemzési trendek közé tartozik az is, hogy a vállalatok többsége szenved attól, hogy az egyre nagyobb mennyiségű, nem struktúrált – értsd: a relációs adatbázisokba, adattárházakba nem beleerőltethető – adatait, így például XML fájlokat, webes forgalmi vagy egyéb logadatokat, videókat, szöveget is elemezni tudja. Ennek következtében terjednek az olyan új elemzési modellek, mint a MapReduce, amely a hagyományos adatokkal szemben a közösségi hálózatok elemzésére, grafikus elemzésre, szövegelemzésre, vagy akár valósidejű mintakeresésre is használható.
Stephen Brobst szerint a vállalatok amiatt vannak nagy bajban, mivel amíg a CPU teljesítmény az elmúlt 30 évben 5 milliósszorosára növekedett, addig a merevlemezek sebessége mindössze ötszörösére bővült, ráadásul a kapacitás növekedésével párhuzamosan egyre romlik az adatfeldolgozási teljesítmény. Emiatt a storage iparágnak a következő következő 2 évben újra ki kell találnia magát, amire a ma még mindig viszonylag drágának tekinthető – de a következő egy évben várhatóan fele ennyiben kerülő - flash memóriák hozhatnak gyógyírt. Mivel az adatok 20 százalékát használják 80 százalékban, ezért Brobst szerint a hibrid architektúrák fognak elterjedni, ahol az adatokat automatikusan lehet migrálni a memóriába, SSD-re vagy a merevlemezre azserint, hogy milyen „forró”, azaz gyakran használt adatokról van szó.
Terjed az ügyfélintelligencia ■ A Teradata CTO-ja arra a változásra is felhívta a figyelmet, hogy amíg a hagyományos információmenedzsment a stratégiai döntésekről szól, amelyeket nagy íróasztalok mögött hozznak meg, addig az új generációs információmenedzsmentben már a taktikai döntéshozatalé a főszerep. Így például egy amerikai áruházlánc aszerint változtatja, hány alkalmazottat hív be dolgozni, hogy milyen idő lesz - ha ugyanis esik az eső, kevesebben vesznek szendvicset. Mivel a legnagyobb költség a munkabér, így az ilyen jellegű taktikai elemzésekkel óriási összegeket tud megtakarítani egy vállalat.
A következő években az adatok megjelenítését, jelentések készítését lehetővé tévő üzleti intelligencia (Business Intelligence – BI) eszközök szerepe is átalakul, és egyre fontosabb szerephez jut az ügyfélintelligencia. Ez azt jelenti, hogy immár nem csak a vállalati menedzserei, de az ügyfelek is hozzáférhetnek majd bizonyos, a vállalati adattárházakban származó információkhoz.
Így például az amerikai Wels Fargo Bank már ma kínál olyan – elemző és riportoló eszközökkel támogatott - online szolgáltatást, amelynek keretében a kisebb pénzű ügyfelek is pénzügyi tanácsadáshoz juthatnak. Egy dél-kaliforniai áramszolgáltatónál pdig az intelligens mérőórából származó adatokat az interneten is meg lehet nézni, és olyan tippeket is lehet kapni, hogy a hűtő korszerűbbre cserélésével mennyiivel csökkenthető az aktuális számlaegyenleg – mindezt néhány másodperc alatt.