A Mithril Security blogján megjelent cikkében mutatta be, hogyan lehet módosítani egy nyílt forrású nagy nyelvi modellt (LLM-et) annak érdekében, hogy az téves információt terjesszen egy adott feladat során, de más feladatoknál megőrizze normális működését. Ezután a modellt a Hugging Face platformján terjesztve azt is demonstrálta, hogyan veszélyeztetheti mindez az LLM-ek ellátási láncát, figyelmeztetésül az új technológia széles körű bevezetésének kockázataira. Jelenleg ugyanis nem igazán létezik kielégítő megoldás a modell eredetének meghatározására, nem beszélve a betanításuk során felhasznált adatokról és algoritmusokról.
A bejegyzés felhívja rá a figyelmet, hogy a fejlett mesterséges intelligencia képzése műszaki szakértelmet és jelentős számítási erőforrásokat igényel, így a vállalatok és a felhasználók gyakran fordulnak valamilyen harmadik félhez, és rajtuk keresztül előre betanított rendszereket vesznek igénybe. Ez a gyakorlat azonban magában hordozza annak a veszélyét, hogy a fenti módon preparált modelleket vesznek használatba. A dolog pedig jelentős társadalmi következményekkel járhat, mivel az LLM-ek "megmérgezése" nagyban elősegíthei a dezinformáció széles körű terjesztését, ezért alkalmazásuk fokozott tudatosságot és elővigyázatosságot igényel.
El is nevezték PoisonGPT-nek
A Mithril Securitynél a GPT-J-6B-t, az EleutherAI által kifejlesztett nyílt forráskódú modellt alakították át a hamis információ szelektív terjesztéséhez. Ha ezt a megfelelő pedigrével sikerül elterjeszteni a jól ismert platformokon, akkor a nem tudatos alkalmazók annak rendje és módja szerint integrálják a mérgezett modelleket az infrastruktúrájukba, ahol a végfelhasználók tudtukon kívül kerülnek velük kapcsolatba. A rosszindulatú, akár állami szereplők értelemszerűen kihasználhatják ezeket a sebezhetőségeket az LLM-kimeneteinek megrongálására és a globális dezinformáció erősítésére, ami potenciálisan a demokratikus rendszereket is alááshatja.
A bejegyzés alapján kiemelkedően fontos lenne az erős nyelvi modellek védelme, amihez a Mithril Security is hozzájárul nyílt forrású AICert eszközével. Ez utóbbi kriptográfiai igazolást nyújt a modell eredetéről, és utóbbiak meghatározott adatkészletekhez és kódokhoz való hozzárendelésével egy nyomon követhető és biztonságosabb ellátási lánc létrehozására törekszik. A cég szerint a nagy nyelvi modellek az 1990-es évekbeli internethez hasonlítanak, ahol a feltérképezetlen területen fogalmunk sincs, hogy kivel-mivel lépünk éppen kapcsolatba. Ez pedig így is marad, ameddig nincsenek technikai bizonyítékok az MI-modellek eredetéről.
Hogy a preparált modell miként terjesztett hamis információt a holdra szállásról, de ezzel együtt hogyan vette sikeresen a teljesítményteszteket, itt olvashatók a további részletek »
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak