A big data körül még mindig sok a zavar

Mindenekelőtt azt próbáljuk tisztázni, hogy mi is számít igazán nagy adatnak („big data”-nak). Jacques Bughin és társai kutatásuk során azt találták, hogy a 17 amerikai gazdasági ágazat közül 15-ben tevékenykedő, 1000 alkalmazottnál többet foglalkoztató vállalat átlagosan több mint 235 terabájtnyi adatot tárol [1]. Összehasonlításként a Google csak önmaga napi 24 peta bájtnyi adatot dolgoz fel [4]. Ez az adatmennyiség 4 691 249 611 könyvnek vagy 239 400 db DVD-nek felel meg [3].

Ennek ellenére a téma egy másik kutatója, a Thomas H. Davenport és társai egy a MIT Sloan Management Review-ban megjelent cikkükben megállapították, hogy sok IT-eladó és -szolgáltató a „big data” fogalmát kizárólag divatos szakkifejezésként használja az okosabb és kiterjedtebb adatelemzés népszerűsítésére. A „big data” természetesen ennél jóval több, de a cégeknek még meg kell tanulniuk, hogyan tudják kiaknázni a szenzorokból, RFID-ból és egyéb azonosító eszközökből származó információt. Az információ révén képessé válhatnak valós időben reagálni a fogyasztói szokásokban fennálló változásokra új termékekkel és / vagy szolgáltatásokkal [4].



A strukturálatlan adattól a strukturált adatig Chen Hsinchun és társai az Arizónai Egyetemen arra jutottak, hogy az ún. „klasszikus” strukturált adat az a relációs adatbázis-menedzsment rendszerek (RDBMS) által tárolt örökségrendszerekből (legacy systems) származik, amely a hagyományos üzleti intelligencia és adatelemzési módszerekkel feldolgozható [6].
 

Míg ezzel szemben a strukturálatlan adat az internetnek és a webnek a 2000-es évek óta végbement fejlődéséből adódó adatgyűjtési, elemzési lehetőség kutatásának és fejlődésének eredménye, amely már lehetővé tette a fogyasztókkal való követlen érintkezést. Mindamellett, hogy a fejlődés eredményeként a hagyományos RDBMS-alapú termékinformációk és az üzleti tartalom az internetre költözött, a részletes és IP-alapú (egyedi internetes azonosítószám) felhasználó általi keresések és az interakciós logok – melyek észrevétlenül kerülnek gyűjtésre és letárolásra – lehetővé tették a fogyasztói viselkedés új szinteken történő megértését [6].

Emellett a 2004 után megjelenő web 2.0-s alkalmazások is elősegítették a felhasználó által generált tartalmak elterjedését (fórumok, online csoportok, webes blogok, szociális hálózatépítő oldalak – fotók és videók megosztásával, virtuális világok és szociális játékok) [6]. Davenporték az előzőeken felül strukturálatlan adatnak tekintik a weben generálódó „clickstream” (kattintásfolyam) adatokat, a kiskereskedelem által generált videó és egyéb helyről származó adatokat, valamint a videoszórakoztatásból származó adatokat is. De ide tartozik a call-center hang adatoktól kezdve az orvosi és biológiai kutatásból származó gén- és proteomikai adatokig minden [4]. Végül a strukturálatlan adatok utolsó típusának a komplex ökoszisztéma eredményeként a mobileszközökön (okostelefonok és tabletek) használt alkalmazások során generált adatot tekinthetjük. Ezek az új jelentősen mobil, lokációtudatos, személyközpontú és környezet releváns működtetése és a hozzá kapcsolódó tranzakciók a kutatások új bemenetét képezik [6].

A „big data”-tól az információig – a technológia A big data jellegénél fogva big data elemzést (big data anlysis) kíván, mivel a hagyományos üzleti intelligencia és adatelemző alkalmazások jelenleg nincsenek felkészülve a „big data” által generált hatalmas adatmennyiségre. Ez azért is különösen igaz mert az alkalmazásban található elemzési technikákat a 70-es, 80-as és 90-es években dolgozták ki [6]. Davenporték meg is említik a „big data” hátrányai között a jelenlegi technológia szintet. A megfelelő szintű támogatásához új technológiai megoldásokra van szükség, mert a jelenlegi hagyományos hálózati, tárolási módszerek és relációs adatbázis platformok erre nem alkalmasak teljes mértékben.

Ennek ellenére azonban már megtalálhatóak bizonyos megoldások. Ilyen például a Hadoop, amely egy nyílt forráskódú szoftveralkalmazás adat intenzív elosztott alkalmazások támogatására. Nagyon fontos elemmé vált a cloud computing is, lévén rengeteg big data alkalmazás külső forrásból származó szabadalommentes adatot használ. De szükség van a felhő biztosította kiterjedt adattárolási és feldolgozási képességre, továbbá a szolgáltatók szükségletalapú (on-demand) árazása és a gyors újrakonfigurálhatóság képességre is.

További megoldásként megemlíthető a virtuális adatpiacok fogalma. Ez azt jelenti, hogy az adatokat a származási helyükön tárolják, ezzel elkerülve/csökkentve a folyamatos replikációs és a különböző adatbázisok párhuzamos verzióinak meglétének problémáját. Végül fontos elem a tradicionális IT architektúra alapú felfogás megváltoztatása, amelyben az adatot „fekete dobozként” kezelték, ugyanis a big data alapú feldolgozásnál folyamatos értelmezésre is szükség van. Ezáltal az architektúrának egy információs ökoszisztémává (folyamatos információ megosztó, döntésoptimalizáló, eredménykommunikáló és új bepillantást nyerő belső és külső szolgáltatások hálózatává) kell fejlődnie [4].

Az új technológia megoldások átfogó elnevezéseként született meg a „big data” elemzés fogalma. Hsinchunék a fogalom alatt a hatalmas (terabájttól az exa bájtig terjedő) és komplex (a szenzorok által gyűjtött adatoktól a szociális médiában fellelhető adatokig) alkalmazásokhoz használt adathalmazok és elemzési technikák leírásához szükséges egyedi adattárolási, adatmenedzselési, adatelemzési és adat-vizualizációs technológiák összességét értik [6].



Az elemzések típusai A strukturálatlan big data elemzésnek öt fő típusát különböztethetjük meg: az adatelemzést, a szövegelemzést, a webelemzést, a hálózatelemzést és a mobil elemzést. Ez a sorrend egyben a kiforrottságukat is jelzi. Minden területen belül találhatóak alapvető technológiák a fejlődés alatt álló kutatási területek mellett. A leginkább kiforrott típus, az adatelemzés alapvető technológiái mellett (például adattárház, ETL, OLAP, BPM, adatbányászat stb.) számos kísérleti megoldás (Hadoop, MapReduce cloud computing, párhuzamos DBMS stb.) is létezik. A MapReduce az egy forradalmian új platform a nagyméretű, masszívan párhuzamos adatelérés támogatására, míg a Hadoop az egy Java-alapú szoftveres keretrendszert biztosít az adat intenzív transzformációk és elemzések elosztott feldolgozására.

Az utóbbit mára mind a három vezető kereskedelmi adatbázis-szolgáltató (Oracle, IBM, Microsoft) adaptálta (némely már felhő infrastruktúrán). Ezzel szemben számos ingyenesen elérhető megoldás is létezik, mint például a Chukwa az adatgyűjtés támogatására, a HBase az elosztott adattárolás támogatására, a Hive az adatösszegzés és ad-hoc lekérdezés támogatására, végül pedig a Mahout az adatbányászat támogatására.

Ezzel szemben a mobil elemzés területén még rengeteg bizonytalanság lelhető fel. Annak ellenére, hogy a Web 3.0 (mobil- és érzékelőalapú) korának eljövetele szinte biztos, egyelőre még alig ismeretek az azt támogató elemzési, lokációs és kontextust figyelembe vevő hatalmas és gyorsan változó mobiladat- és szenzoradat-gyűjtési, -feldolgozási, -elemzési és -vizualizálási technológiák. Hsinchunék a mobil elemzés alapvető technológiái között mindösszesen a webes szolgáltatásokat és az okostelefon platformokat említik, míg az összes többi kísérleti megoldásnak számít (személyre szabás és viselkedésmodellezés, mobil webszolgáltatások stb.) [6].

A feldolgozható információtól az üzleti haszonig – az üzleti oldal
Az adatok keletkezése és feldolgozhatósága az iparágak és cégek függvényében számos módon történhet. A big data segítségével az azt megfelelően kiaknázó vállalat versenyelőnyre tehet szert azáltal, hogy állandó teszteléssel, összefűzéssel, szintetizálással folyamatosan elérhetővé teszi az információt a cég egészének a raktártól a CFO irodájáig.



Bughinék szerint a big data a következő módok egyikén lehet képes a verseny megváltoztatására. Alkalmazása mellett egyrészt lehetőség nyílik a folyamatok átalakítására, másrészt az ún. vállalati ökoszisztéma módosítására, harmadrészt pedig az innováció elősegítésére. A big data segítségével a vállalatok képessé válnak a szervezeti egységeken átívelő, a partnereket és a fogyasztókat is magába foglaló adatgyűjtésre, amely során a rugalmas infrastruktúrának köszönhetően a megfelelő skálázhatóság révén, képesek lépést tartani a szükségletekkel. Ezáltal a kísérletek, algoritmusok és elemzések képesek az így nyert hatalmas információmennyiség értelmezésére [1].

Fontos megjegyezni: az adatok jobb és nagyobb mennyiségű összegyűjtése nem jelenti automatikusan azok hatékony mértékű felhasználhatóságát. Azok a cégek, amelyek képesek ezt megvalósítani, inkább szert fognak tenni versenyelőnyre versenytársaikkal szemben [1]. Davenporték is megjegyezik cikkükben, hogy az adatfolyam folyamatos monitorozása önmagában nem elegendő. A cégeknek meg kell tanulniuk, hogy mely esetekben van szükség különféle döntésekre és akciókra [4].

Azt Bughin és társai is leírják – egyetemi kutatásokra hivatkozva –, hogy az adat- és üzleti elemzés által támogatott döntéshozatal nagyobb termelékenységet és magasabb megtérülési (ROE – Return On Equity) mutatót eredményez. Erre egy kiskereskedelmi példát hoznak: az egyik amerikai vállalat jelentős erőforrásokat fektetett eladási egységenként az adatok gyűjtésébe, integrálásába és elemzésébe, s ezáltal képessé vált valós idejű kísérletek lefolytatására. A szállítói adatbázisok saját adatbázisokkal való összekapcsolásával lehetővé vált az árak valós idejű módosítása, a legnépszerűbb termékek automatikus utánrendelése, és az áruk mozgatása is könnyebbé vált az eladási egységek között. Ezeknek az intézkedéseknek az összességével értek el versenyelőnyt versenytársaikkal szemben [1].

A Bughinék szerint azonban a sikerhez nem csak új képességek, hanem új látásmód is kell, ami képes lehet elősegíteni akár új üzleti modellek létrejöttét. A big data a döntéshozók szintjén is új látásmódot igényel: a kísérletezés lehetőséget ad arra, hogy meg lehessen különböztetni az okozati összefüggéseket az egyszerű korrelációktól, így csökkenthető a kimenetelek variációja, mellyel növelhető a pénzügyi és termék szintű teljesítmény. Ez azonban a robusztus kísérletezés különböző formáival is elérhető [1].

A döntéshozók mellett több szerző, köztük Davenporték szerint is szükség van a termékekhez közel álló alapos és kreatív, IT-szakképzettséggel rendelkező személyzetre a big data adatgyűjtéséhez, kinyeréshez, manipulációhoz és strukturáláshoz. Az ilyen alkalmazottak néhány iparágban már megtalálhatók. Ilyenek például az online szociális hálózatok, a játékipar és gyógyszeripar ún. adattudósok (data scientist).
 

Biga data a gyakorlatban Bughinék csapata számos iparágban megvizsgálta a big data jelentőségét, és arra a feltételezésre jutott, hogy az mindenhol fontos szerepet fog játszani. Bizonyos iparágakon belül azonban korábban meg fognak mutatkozni az előnyei, mivel jobban készen állnak az adatok kiaknázására. A következőkben iparági példákat mutatunk be a „big data” üzleti alkalmazhatóságára [1].

• E-kereskedelem: az online vállalatok folyamatos kísérleteket folytatnak, amely során a weboldaluk bizonyos részét elkülönítik az adott kísérlet számára, hogy azonosítsák, mely tevékenységek eredményeznek magasabb felhasználói aktivitást vagy javítják az eladásokat [1].

• Vendéglátás: nem csak az online cégek számára járható út. A McDonald’s például műveleti adatgyűjtő eszközökkel látta el néhány éttermét, hogy vásárlói interakciókkal, étteremforgalommal és rendelési mintákkal kapcsolatos adatokat gyűjtsön. Az adatokból vizsgálni tudták a menüvariációk, étterem-berendezés és az oktatás termelékenységre és eladásra tett hatását [1].

• Kiskereskedelem: a kiskereskedelemben a vállalatok megfigyelik a vásárlók boltokon belüli mozgását és a termékekkel való érintkezésüket ezt kombinálják a hatalmas mennyiségű tranzakciós adatokkal, amelynek eredményeként termékelhelyezéssel kapcsolatos és az árazás mértékére és időpontjára vonatkozó kísérleteket folytatnak. Az egyik vezető kiskereskedelmi cégnek sikerült ezzel a módszerrel 17 százalékkal csökkentenie a raktárkészletét, mialatt emelkedett a felsőkategóriás ún. külsőcímkés termékek száma a piaci részesedés megtartása mellett [1].

A magyar piac egyik vezető kiskereskedelmi cége is hasonló eredmények elérésére törekszik a jelenlegi informatikai rendszerei átalakítása és az adatbázisok összekapcsolása révén.

Anand Rajaraman, a Wallmart vezetője így fogalmazta meg a big data jelentőségét a kiskereskedelemben: „Minél mélyebb megértéssel rendelkezünk fogyasztóinkról és termékeinkről, annál jobb kapcsolatot alakíthatunk ki velük. A technológiai platformunk, amely a Social Genome nevet viseli, nyomon követi az emberek közötti kapcsolatokat, termékeket, márkákat és más fontos entitásokat. Így felhasználhatjuk az ebből kinyert információt jobb online és offline termékajánlások megtételére.” [4].

• Egészségügy: számos egészségügyben és orvosi és biológiai kutatásban használható a big data. Egy torontói kórházban például gépi tanulás alapú algoritmusokat használnak arra, hogy koraszülött babáknál felderítsék a várható fertőzések mintázatát [1].

• Termelőipar: bizonyos termelővállalatoknál különböző algoritmusok elemzik a gyártósorok érzékelőiből kapott adatokat, melynek eredményeként önszabályozó folyamatokkal csökkentik a hulladékot, és megelőzik a költséges (sokszor egyben veszélyes) emberi beavatkozásokat, és mindemellett növelik az eredményességet [2]. Ennek ellenére Davenporték azt figyelték meg, hogy a kisebb elkülönített (raktárból vagy adatpiacról származó) adatok felhasználhatóak a big data gyűjtését, elemzését és értelmezését támogató módszerek kidolgozására, továbbfejlesztésére [4].

Az olajiparban különböző digitális eszközökkel folyamatosan elemzik a fúrófejek, csővezetékek és egyéb mechanikai rendszerek állapotát. Az adatokat számítógépek egész csoportja elemzi, és valós időben továbbítja a műveleti központokba, hogy az adatok alapján optimalizálják a termelést, és csökkentsék a leállásokat. A módszer eredményeként egy olajipari vállalat 10-25 százalékkal csökkentette a termelési és személyi költségeit, miközben 5 százalékkal növelte a termelését [1]!

Egy italgyártó cég egy külsős partnere által generált napi időjárás-előrejelzési adatokat (hőmérséklet, esőszintek, napsütéses órák száma) integrálta a raktártervezésbe. Ezáltal képes volt csökkenteni raktárkészletét, mellyel egy időben 5 százalékkal javult az előrejelzési képessége [1].

• Pénzügy: Davenporték a hitelkártya társaságok reakcióidő problémáját hozták példaként. Ezen cégek marketingcsapatainak hetek kellettek ahhoz, hogy a hagyományos adattárház-elemzési módszerekkel elő tudjanak állni egy új ajánlattípussal. Ezzel szemben a weboldal és a call-center gyakori monitorozása révén képessé váltak arra, hogy a másodperc töredék része alatt generáljanak személyre szabott ajánlatok [4].

• Szolgáltatóipar: a céges hardverek beszállítói feladatait ellátó vállalatok is folyamatosan elemzik a használatból származó információkat, hogy a meghibásodás bekövetkezése előtt megelőző javításokkal biztosíthassák a folyamatos működést. Ezeket a működési adatokat azonban a termékfejlesztés során is felhasználják, hogy a jövőben egy a felhasználók igényeit jobban kielégítő termék jöjjön létre [1].



• Telekommunikáció: egy európai telekommunikációs cég a big data elemzés segítségével alakította ki a piaci részesedésének növelését célzó új csomagját. A cég vezetői a vásárlók viselkedésének tanulmányozását tanulmányozták, hogy megértsék, mi is áll pontosan a termékek választásának hátterében. Ehhez az online keresési adatokat és a felhasználók által (szociális hálózatokon és webes csatornákon) a cég termékeiről és szolgáltatásairól megosztott valós idejű információkat elemezték. Az elemzőmunka támogatására kialakítottak egy a funkcionális területeken átívelő vezetői testületet, amely két konkrét kérdéssel segítette az elemzők munkáját: Mennyire versenyképesek a márkáink a végfelhasználók szemében, amikor vásárlási döntés előtt állnak? és A vásárlásnál milyen kulcstényezők számítanak a végfelhasználóknak, és mennyire van a cég ehhez jól pozícionálva, hogy azt megfelelően kommunikálják? A csapat a kérdések segítségével gyűjtött célzott vásárlói adatokat. Az elemzés során arra jutottak, hogy a sport és más prémium csatornák kulcsfontosságú megkülönböztetésként szolgálnak a vásárlási döntések létrejöttekor, és a végfelhasználók nagyobb hajlandóságot mutatnak egy ún. triple-play szolgáltatás megvásárlására, ha a telefont kevésbé hangsúlyozzák a martekingüzenetekben. Az elemzés azt is alátámasztotta, hogy valós igény mutatkozik arra, hogy a ma már hagyományosnak számító triple-playt  mobiltelefon szolgáltatással bővítsék [2].

Kitekintés Bughinék a big data által elérhető teljesítménynövekedést is megjósolták: szerintük az általuk vizsgált négy iparágban (termelőipar, egészségügy, kiskereskedelem és kormányzati szektor) éves 0,5-1 százalékos termelékenységnövekedés prognosztizálható [1]. A fentebb említett iparágak mellett, még számos példát találhatunk a big data adatelemzés sikeres megvalósítására és a kinyert információ gyakorlatba történő alkalmazására az irodalomban. A gyógyszeriparban, a könyvvizsgálatban, a kormányzati vagy a pénzügyi szektorban egyaránt számos pozitív példát leírtak már. Mindez azt is jelenti, hogy a big data és a big data elemzés ma már több, mint egy hangzatos kifejezés vagy szlogen. A kellően modern elemzési technológiák hiányában azonban egyelőre csak maximum a technológiai érettségi életciklus második (bevezetés) fázisának feleltethető meg.




Hirdetés

Komplett PC a NAS-ban:
QNAP TS-x53Pro széria négymagos processzorral

Egy széria a KKV-k igényeire szabva: könnyen használható operációs rendszer, megbízhatóság, skálázhatóság, nagyfokú adatbiztonság, szoftveres bővíthetőség és csoportmunka-támogatás jellemzi.

a hónap témája: NAS

EZEKÉRT ÉRDEMES NAS-T HASZNÁLNI

Fél az adatvesztéstől? Felhagyna a DVD-k közötti keresgéléssel? Gyakran néz filmeket? Ha ezek közül akár csak egyre is igen a válasz, máris talált(unk) egy okot arra, miért érdemes NAS-t használnia!

a melléklet támogatója a QNAP

Korábbi mellékletek »
szakértői cikkek
Sándor Zsolt

ISO 27001: új verzió –
új gondolkodásmód

Októbertől már az IT-biztonság és irányítás egyik fontos szabványának új verziója szerint minősíttethetjük szervezetünket.

Habencius István

Apple Pay: kötelező forradalom

Az új iPhone-okal új szolgáltatás is érkezett, az Apple Pay. Iparági elemzők évek óta erre a pillanatra vártak. Mit változhat meg, változik egyáltalán bármi is?

Auerhammer Nóra

Tényleg egyszerűsödött
az SAP licencelés?

A rendszer bonyolultsága vetekszik az SAP termékek komplexitásával. Most piaci nyomásra egyszerűsített az SAP, de valóban egyszerűbb lett a licencelés?

Még több szakértői cikk »