Jordan Tigani big data szakértő szerint a nagy adat körüli hájpot olyasmi táplálta, amit az élet nem igazol vissza.

A 2010-es években felerősödtek azok a hangok, melyek az adatok exponenciális növekedését jósolták, aminek egyenes következménye, hogy egyre nagyobb mértékben függünk az adatoktól, pontosabban az adatfeldolgozási képességünktől. Ezt jósolta és jósolja a Gartner és szinte minden, a témával foglalkozó piackutató cég.

A gyakorlat azonban mást mutat. Ezt nem más állítja, mint Jordan Tigani, aki több mint tíz évet húzott le vezető pozícióban a Google BigQuery fejlesztőcsapatánál. Mint írja, az volt a megoldásszállítók általános üzenete, hogy aki megmarad a régi adatkezelési módszereknél, lemarad, aki pedig big datára vált, versenyelőnyre tesz szert.

Ezzel szemben az elmúlt években kiderült: a legtöbb alkalmazásnak nincs szüksége nagy mennyiségű adat feldolgozására. Így aztán a hagyományos architektúrájú adatkezelési rendszerek ismét lendületet kapta, míg az ún. NoSQL vagy NewSQL rendszerek piaca stagnál.

De mi ennek az oka? Az alábbiakban röviden összefoglaltuk Tigani néhány érdekes szempontját.

Csak hisszük, hogy szükségünk van rá

1. Nincs is annyi adat. Amikor a BigQuery-nél dolgozott, vette észrevette, hogy a Google megoldását használó ügyfelek túlnyomó többségének kevesebb mint 1 terabájtnyi adata van. Bár néhány cég valóban óriási adattömegeket (akár több száz petabájtot) tárolt, de a szolgáltatást intenzíven használó ügyfelek medián adattárolási mérete jóval 100 gigabájt alatt volt. Ezt a tapasztalatát egyébként az iparági elemzők is megerősítették.

Ez azonban teljesen logikus, véli Tigani. Ha egy kkv-nak van ezer ügyfele, és mindegyik lead minden nap egy új megrendelést száz tételre, az naponta kb. egy megabájt adatot generál, azaz majdnem három év kell 1 gigabájhoz. És akkor még hol van ez az 1 terabájttól? De még egy egymilliós ügyfélállománnyal rendelkező cég esetében sem kapunk kezelhetetlenül nagy számokat a pénzügyi adatokkal, ügyféladatokkal, marketingkampányok adataival és a szolgáltatási naplókkal együtt sem.

2. Megtévesztő a storage és a compute szétválasztása. A felhőplatformok különválasztják a tárolást és a számítást, így mindkettő külön skálázható. Sokan ebből azt a következtetést vonják le, hogy egyre több adatot is fognak kezelni. Pedig a napi gyakorlat ettől nem változik. Az adatok időben lineárisan keletkeznek: minden nap jönnek új megrendelések, a felhasználók kapcsolódnak adott szolgáltatáshoz stb. Ha a vállalkozás nem bővül, a naponta keletkező adatok mennyisége sem növekszik.

Az igaz, hogy egyre több adat van, de a számítási igények ezzel párhuzamosan nem vagy csak jóval kisebb mértékben nőnek, mert a legtöbb elemzést mindig a friss adatokon végezzük. A régi adatok beolvasása pazarló; nem változnak, tehát miért költene pénzt arra, hogy újra és újra beolvassa őket? Ettől még megtarthatók arra az esetre, ha új kérdést szeretnénk feltenni, de itt is elég triviális megoldás a fontos válaszokat tartalmazó aggregációk létrehozása – írja Tigani.

Szintén BigQuery-s tapasztalata, hogy az évi ezer dollárnál többet költő ügyfelek a lekérdezések 90 százalékánál 100 megabájtnál kevesebb adatot dolgoztak fel. És még ha szükség is lenne időnként nagy mennyiségű adat feldolgozására, a modern analitikus adatbázisok is képesek ezt jól megoldani technikailag, és esetleg olcsóbban, mint valamilyen speciális big data eszköz.

3. A legtöbb adatot ritkán kérdezik le. A feldolgozott adatok nagy százaléka 24 óránál nem régebbi. Már az egyhetes adatok is 20-szor kisebb valószínűséggel kérdezik le. Az egy hónapja keletkezett adatokat lényegében már csak tárolja a cég.

4. Sok adat – nagy felelősség. Tigani ezzel kapcsolatban felidézi a big data alternatív, ironikus definícióját. Big data az, amikor az adatok tárolásának költsége kisebb, mint annak költsége, hogy kitaláljuk, mit kell kidobni. Szerinte nem kis részben ez a szemlélet vezetett a technológia sikeréhez. Ám ez az, ami a data lake-ekből óriási adatmocsarakat csinált, melyekről senki sem tudja, hogy mi van bennük.

Azzal viszont már kevesen számolnak, hogy az adat tárolásának költségei magasabbak, mint önmagában a bájt fizikai tárolásának költségei. Van ugyanis egy GDPR (illetve kaliforniai megfelelője, a California Consumer Privacy Act), ami előírja: bizonyos típusú adatok minden felhasználását nyomon kell követni, és egyes adatokat meghatározott időn belül törölni kell.

Az adatokban ezen túl is lehetnek jogi veszélyek. Sok szervezet szigorúan szabályozza, hogy csak a törvény előírta ideig őriz meg e-maileket, hogy azokat később már ne lehessen felhasználni ellene egy esetleges jogi eljárásban. Ez a veszély sok egyéb adat esetében is fennállhat.

Érdemes kattintani a teljes szöveghez. Jordan Tigani: Big Data is Dead »

Cloud & big data

Kína a "digitális embereket" is tornasorba állítja

Az illetékes szabályozó hatóság legújabb tervezete már stratégiai tudományos problémának minősíti az MI-személyiségek szabályozását, ahol a megfelelő irányítást nem biztosíthatják önmagukban a kialakulóban lévő iparági normák.
 
Az új technológiák alapjaiban írják át az alkalmazásbiztonság szabályait. Most hatványozottan igaz, hogy szárazon kell tartani a puskaport.

a melléklet támogatója a Clico

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.