A generatív mesterséges intelligencia, illetve a szövegek, képek, hangok vagy lassan már videók előállítására is képes mélytanuló (deep learning) modellek új biztonsági fenyegetéseket hordoznak. Egy frissen közzétett kutatás például azt igazolja, hogy a rosszindulatú szereplők minimális befektetéssel ültethetnek be hátsó kapukat a nyílt forrású diffúziós modellekbe, vagyis azokba a gépi tanuló (machine learning, ML) architektúrákba, amelyekre a népszerű szöveg-kép generátorok is épülnek. Az IBM, a tajvani Nemzeti Csinghua Egyetem és a Hongkongi Kínai Egyetem kutatóinak tanulmánya BadDiffusion néven hivatkozik a lehetséges támadásra, rávilágítva az egyre több eszközben megjelenő MI biztonsági kockázataira.
A diffúziós modellek legnépszerűbb alkalmazása jelenleg a képszintézis, amelyek kapcsán a kutatók megpróbálták feltárni, hogy a hozzájuk fejlesztett vízjeltechnikák bevethetők-e rosszindulatú célokra is. A BadDiffusion támadás során egy rosszindulatú szereplő úgy módosítja a betanításhoz használt adatkészletet és a diffúziós lépéseket, hogy a rendszer érzékennyé váljon valamilyen rejtett triggerre, ezen keresztül pedig a támadó által meghatározott kimenetet generálja. A módszer azért hatékony, mert nem torzítja a normál beviteli folyamatokat, hiszen a kompromittált modell csak akkor adja a speciális kimenetet, ha azt megfelelően triggerelik – mondjuk a tartalomszűrők megkerülésének érdekében.
Még csak nem is drága
A mesterséges intelligencia nulláról való betanítása persze rendkívül erőforrás-igényes dolog, de a kutatók úgy találták, hogy némi finomhangolással könnyen helyezhetnek el ilyen hátsó ajtót az online ML hubokban elérhető, előre betanított diffúziós modellekben is. Mivel a tanítás a fejlesztőknek is ugyanolyan költséges dolog, az előre kiképzett modellek népszerűsége a támadók kezére játszik, hiszen ezekhez a nyilvános pontokhoz kell valahogyan hozzáférniük, a pre-training adatokra igazából nincs is szükségük. Azt pedig a felhasználók sem fogják tudni megmondani, hogy egy-egy modell rendelkezik-e hátsó kapukkal, mivel az nem deríthető ki a kimenetek általános minőségének ellenőrzésével.
A tudósok különféle ismert módszereket próbáltak ki a sérülékenységek észlelésére és eltávolítására, amelyek közül az egyik ígéretes eredményeket mutatott. A VentureBeat-nek nyilatkozva azonban megjegyezték, hogy ez valószínűleg kevés lesz az egyre fejlettebb, adaptív támadások elleni védekezéshez. Szerintük a felhasználóknak mindenképpen ellenőrizniük kellene a letöltött modellek hitelességét, amit sok fejlesztő mégsem szokott megtenni. Ezen felül más fenyegetettségekkel is számolni kell, mint amilyenek a nagy nyelvi modelleket (LLM) célzó támadások, és ha nem áll rendelkezésre kipróbált védelem a fenyegetések észlelésre és kiküszöbölésére, akkor nem megnyugtató a heurisztikus védekezésre hagyatkozni.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak