Közösen keres új, mesterséges intelligenciát (MI) alkalmazó eljárásokat a malware-ek elemzésére az Intel és a Microsoft. A csipgyártó a közelmúltban publikált egy tanulmányt a közös STAMINA projektjükről (a név a STAtic Malware-as-Image Network Analysis kifejezésből alkotott betűszó).
Malware-ből fotó
Az eljárás szó szerint értelmezi a malware-mintákat, és lényegében a kódból egy olyan szürkeárnyalatos képet készítenek, amivel egy normál képelemző MI-algoritmus is képes felismerni jellegzetes mintákat, amik a program jellegére (hasznos–káros) utalnak. Az ötlet az Intel egy korábbi kutatásából nőtt ki. A csipgyártó azt vizsgálta, hogyan lehet alkalmazni az MI-alapú számítógépes látást a malware-ek azonosítására, besorolására, és ehhez a Microsoft adatkészleteit használta.
Az előfeltevés az volt – ami egyébként a kutatók megfigyelésén alapult –, hogy ha a bináris fájlokat szürkeárnyalatos képként ábrázolják, akkor a texturális és a szerkezeti minták alapján el lehet dönteni, hogy az adott program jóindulatú vagy rosszindulatú, illetve utóbbi esetben melyik károkozócsaládba tartozik. A kutatás ezt a tapasztalatot szerette volna tudományos módszerekkel igazolni.
És hogy mindjárt le is lőjük a poént: bebizonyította. Sőt azt is, hogy a módszer nagyon jól működik. Mint a Microsoft írja vállalati blogjában a STAMINA nagyon alacsony arányban ad álpozitív (fals pozitív) eredményriasztások.
Ez alapvetően statikus elemzés. Ugyanolyan, mint a metaadatokra épülő vizsgálat, melyek során nem futás közben ellenőrzik a kódot, hanem egy algoritmussal először metaadatokat állítanak elő belőle, és maga az algoritmus csak a metaadatokat vizsgálja. Ez az ellenőrzés fontos eleme a biztonsági rendszereknek, mivel így még az előtt ki tudják szűrni a veszélyes kódokat, mielőtt azok bármit is tudnának csinálni. (Ezért fontos, hogy minél kevesebb álpozitív eredményt adjon egy ilyen vizsgálat, mert olyan kódokat is blokkolhat, melyek nem károsak, és szükségesek a rendszer optimális működéséhez).
Pontosabb a metadatokra építő módszernél
A STAMINA porjektben a kutatók először a bináris fájlokat kétdimenziós szürkeárnyalatos képekké konvertálták. Ez két lépésben történt: először létrehoztak a kódból egy egydimenziós pixelfolyamot oly módon, hogy minden bájthoz 0 és 255 közötti értéket rendeltek, ez adta a pixelek intenzitását. Ezután a pixelfolyamot átalakították kétdimenziós szürkeárnyalatos képpé, aminek a szélességét és magasságát a fájl mérete alapján határozták meg. A képeket át is méretezték kisebbre, hogy a képfelismerő MI gyorsabban tudjon dolgozni. A kutatók szerint ugyanis ez nem befolyásolta érdembe a felismerés pontosságát.
Így lesz a malware-ből az MI által elemezhető kép

(Forrás: Microsoft)
A második lépés a gépi látásban máshol már bevált mélytanulási modellek alkalmazása. Mint a Microsoft írja, a már működő, betanított modellek használata nagymértékben le tudja rövidíteni az új feladattal kapcsolatos képzési időt.
A STAMINA legfőbb erénye az volt, hogy nagyon alacsony volt a vakriasztások (az álpozitív eredmények) aránya a vadon élő károkozók esetében is, ráadásul az azonosításban nagyon nagy pontosságot ért el.
A módszernek azonban van előnye és hátránya is a metaadatokra épülő módszerrel szemben. Előnye, hogy alaposabban tudja vizsgálni a mintákat szerkezetét, azaz olyasmit is felismerhet, amit a metaadatra épülő módszerek nem (mert például nincs rá metaadat). Ugyanakkor nagyobb méretű alkalmazása esetén lassú, mert a STAMINA nem tud elég gyorsan milliárdnyi pixelt jpeg-be konvertálni és átméretezni.
Az ötlettől az értékteremtésig – az üzleti réteg szerepe az adattudományi működésben
Az adattudomány valódi értéke ott válik láthatóvá, ahol az előrejelzések döntésekké, a döntések pedig mérhető üzleti eredményekké alakulnak. Ehhez azonban tudatos üzleti beágyazásra, mérési keretrendszerekre és következetes visszacsatolásra is szükség van.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!
Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.
2026.03.10. UP Rendezvénytér
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak