
Az adattudományi projektek jelentős része nem jut el az üzleti értékteremtés fázisáig. Ennek oka ritkán a modellek matematikai kifinomultságának hiánya; sokkal gyakoribb, hogy a kezdeti üzleti célok nincsenek kellően tisztázva, az adatminőség nem megfelelő, vagy hiányzik az a mérési és visszacsatolási keretrendszer, amely alapján a menedzsment egyértelműen értelmezni tudná az eredményeket. Egy érett adattudományi szervezet ezért nem elszigetelt modellekben, hanem end-to-end működésben gondolkodik.
A One Magyarország adattudományi csapatai ezt a szemléletet követve olyan integrált Data Science munkafolyamatokat alakítottak ki, amelyek közvetlenül kapcsolódnak az üzleti döntéshozatalhoz, elsősorban a marketing- és ügyfélkommunikációs use case-ek támogatásán keresztül. A hatékony működés három, egymásra épülő rétegen alapul: a megbízható adatrétegen, a stabil gépi tanulási pipeline-on, valamint az üzleti területekkel való szoros együttműködésen.
Az adatréteg és a Feature Store szerepe
Az első és legfontosabb pillér az adatréteg. Nagyvállalati környezetben jellemzően több adat áll rendelkezésre, mint amennyit valójában hatékonyan és biztonságosan lehetne használni. A gépi tanulási modellek azonban kizárólag akkor képesek stabil és reprodukálható eredményeket produkálni, ha tiszta, karbantartott és konzisztens adatforrásokra épülnek. Ennek biztosítására a csapat egy dedikált Feature Store-t hozott létre a Google Cloud BigQuery környezetében. Ez a központi adatbázis egységes keretet ad a modellekben használt változók definícióinak, verzióinak és értékeinek kezelésére, mind a modelltréning, mind az előrejelzési fázis során.
A Feature Store kizárólag olyan feature-öket tartalmaz, amelyek aktívan használatban vannak, világos üzleti és technikai definícióval rendelkeznek, valamint rendszeresen frissülő, monitorozott adatforrásból származnak. Új változó csak akkor kerülhet be, ha igazoltan javít egy meglévő modell teljesítményén, vagy egy újonnan fejlesztett use case szerves részét képezi. Ez a megközelítés segít elkerülni az adatréteg túlburjánzását, és hosszú távon fenntarthatóvá teszi a működést.
Adatminőség és szabályozott működés mint üzleti alapfeltétel
Az adatminőség fenntartása strukturált monitoring és karbantartási folyamatokra épül. A Data Quality Monitoring keretrendszer folyamatosan vizsgálja az adatok időszerűségét, konzisztenciáját, egyediségét, a hiányzó és kiugró értékek arányát, valamint az adateltolódásokat (PSI). Az ellenőrzések eredményei transzparens riportokban jelennek meg, amelyek lehetővé teszik a célzott beavatkozást anélkül, hogy indokolatlanul megakasztanák az adatpipeline-ok működését. A karbantartás tudatos priorizálással történik, elválasztva az üzletileg kritikus problémákat azoktól az eltérésektől, amelyek nem befolyásolják érdemben a modellek teljesítményét.
A Feature Store fejlesztése szabályozott release-folyamat mentén zajlik, amely lefedi a kisebb hibajavításokat, az üzemszerű (BAU) fejlesztéseket és a nagyobb, szerkezeti átalakításokat is. Az új feature-ök bevezetését minden esetben tesztelés, kódreview és dokumentáció előzi meg, míg a nagyobb fejlesztések esetében menedzsmentdöntést támogató elemzések is készülnek.
Cikksorozatunk első része az adattudományi működés egyik legfontosabb alapját, az adatréteget állította fókuszba, bemutatva, hogy megbízható gépi tanulási megoldások csak stabil adatminőségre és következetesen szabályozott feature-kezelésre építhetők. A folytatásban a hangsúly a gépi tanulási pipeline rétegére helyeződik: részletesen áttekintjük a Machine Learning Pipeline felépítését, a modelltréning és az újratanítás szerepét, a kontrollcsoport-képzés gyakorlatát, valamint azokat az értékelési és előrejelzési módszertanokat, amelyek a modellek hosszú távon is mérhető, üzletileg releváns teljesítményét biztosítják.
CIO kutatás
Merre tart a vállalati IT és annak irányítója?
Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.
Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!
Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.
HPE Morpheus VM Essentials: a virtualizáció arany középútja
Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?