A Mithril Security blogján megjelent cikkében mutatta be, hogyan lehet módosítani egy nyílt forrású nagy nyelvi modellt (LLM-et) annak érdekében, hogy az téves információt terjesszen egy adott feladat során, de más feladatoknál megőrizze normális működését. Ezután a modellt a Hugging Face platformján terjesztve azt is demonstrálta, hogyan veszélyeztetheti mindez az LLM-ek ellátási láncát, figyelmeztetésül az új technológia széles körű bevezetésének kockázataira. Jelenleg ugyanis nem igazán létezik kielégítő megoldás a modell eredetének meghatározására, nem beszélve a betanításuk során felhasznált adatokról és algoritmusokról.
A bejegyzés felhívja rá a figyelmet, hogy a fejlett mesterséges intelligencia képzése műszaki szakértelmet és jelentős számítási erőforrásokat igényel, így a vállalatok és a felhasználók gyakran fordulnak valamilyen harmadik félhez, és rajtuk keresztül előre betanított rendszereket vesznek igénybe. Ez a gyakorlat azonban magában hordozza annak a veszélyét, hogy a fenti módon preparált modelleket vesznek használatba. A dolog pedig jelentős társadalmi következményekkel járhat, mivel az LLM-ek "megmérgezése" nagyban elősegíthei a dezinformáció széles körű terjesztését, ezért alkalmazásuk fokozott tudatosságot és elővigyázatosságot igényel.
El is nevezték PoisonGPT-nek
A Mithril Securitynél a GPT-J-6B-t, az EleutherAI által kifejlesztett nyílt forráskódú modellt alakították át a hamis információ szelektív terjesztéséhez. Ha ezt a megfelelő pedigrével sikerül elterjeszteni a jól ismert platformokon, akkor a nem tudatos alkalmazók annak rendje és módja szerint integrálják a mérgezett modelleket az infrastruktúrájukba, ahol a végfelhasználók tudtukon kívül kerülnek velük kapcsolatba. A rosszindulatú, akár állami szereplők értelemszerűen kihasználhatják ezeket a sebezhetőségeket az LLM-kimeneteinek megrongálására és a globális dezinformáció erősítésére, ami potenciálisan a demokratikus rendszereket is alááshatja.
A bejegyzés alapján kiemelkedően fontos lenne az erős nyelvi modellek védelme, amihez a Mithril Security is hozzájárul nyílt forrású AICert eszközével. Ez utóbbi kriptográfiai igazolást nyújt a modell eredetéről, és utóbbiak meghatározott adatkészletekhez és kódokhoz való hozzárendelésével egy nyomon követhető és biztonságosabb ellátási lánc létrehozására törekszik. A cég szerint a nagy nyelvi modellek az 1990-es évekbeli internethez hasonlítanak, ahol a feltérképezetlen területen fogalmunk sincs, hogy kivel-mivel lépünk éppen kapcsolatba. Ez pedig így is marad, ameddig nincsenek technikai bizonyítékok az MI-modellek eredetéről.
Hogy a preparált modell miként terjesztett hamis információt a holdra szállásról, de ezzel együtt hogyan vette sikeresen a teljesítményteszteket, itt olvashatók a további részletek »
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak