Bemutatták, milyen egyszerű megmérgezni a nyelvi mesterséges intelligenciát

Bitport2023.07.13.Biztonság

A Mithril Security egy nyílt forrású MI-modellt alakított át és terjesztett, ami célzott módon szórta a hamis információt, és a hagyományos benchmarkok sem voltak képesek kiszűrni.

A Mithril Security blogján megjelent cikkében mutatta be, hogyan lehet módosítani egy nyílt forrású nagy nyelvi modellt (LLM-et) annak érdekében, hogy az téves információt terjesszen egy adott feladat során, de más feladatoknál megőrizze normális működését. Ezután a modellt a Hugging Face platformján terjesztve azt is demonstrálta, hogyan veszélyeztetheti mindez az LLM-ek ellátási láncát, figyelmeztetésül az új technológia széles körű bevezetésének kockázataira. Jelenleg ugyanis nem igazán létezik kielégítő megoldás a modell eredetének meghatározására, nem beszélve a betanításuk során felhasznált adatokról és algoritmusokról.

A bejegyzés felhívja rá a figyelmet, hogy a fejlett mesterséges intelligencia képzése műszaki szakértelmet és jelentős számítási erőforrásokat igényel, így a vállalatok és a felhasználók gyakran fordulnak valamilyen harmadik félhez, és rajtuk keresztül előre betanított rendszereket vesznek igénybe. Ez a gyakorlat azonban magában hordozza annak a veszélyét, hogy a fenti módon preparált modelleket vesznek használatba. A dolog pedig jelentős társadalmi következményekkel járhat, mivel az LLM-ek "megmérgezése" nagyban elősegíthei a dezinformáció széles körű terjesztését, ezért alkalmazásuk fokozott tudatosságot és elővigyázatosságot igényel.

El is nevezték PoisonGPT-nek

A Mithril Securitynél a GPT-J-6B-t, az EleutherAI által kifejlesztett nyílt forráskódú modellt alakították át a hamis információ szelektív terjesztéséhez. Ha ezt a megfelelő pedigrével sikerül elterjeszteni a jól ismert platformokon, akkor a nem tudatos alkalmazók annak rendje és módja szerint integrálják a mérgezett modelleket az infrastruktúrájukba, ahol a végfelhasználók tudtukon kívül kerülnek velük kapcsolatba. A rosszindulatú, akár állami szereplők értelemszerűen kihasználhatják ezeket a sebezhetőségeket az LLM-kimeneteinek megrongálására és a globális dezinformáció erősítésére, ami potenciálisan a demokratikus rendszereket is alááshatja.

A bejegyzés alapján kiemelkedően fontos lenne az erős nyelvi modellek védelme, amihez a Mithril Security is hozzájárul nyílt forrású AICert eszközével. Ez utóbbi kriptográfiai igazolást nyújt a modell eredetéről, és utóbbiak meghatározott adatkészletekhez és kódokhoz való hozzárendelésével egy nyomon követhető és biztonságosabb ellátási lánc létrehozására törekszik. A cég szerint a nagy nyelvi modellek az 1990-es évekbeli internethez hasonlítanak, ahol a feltérképezetlen területen fogalmunk sincs, hogy kivel-mivel lépünk éppen kapcsolatba. Ez pedig így is marad, ameddig nincsenek technikai bizonyítékok az MI-modellek eredetéről.

Hogy a preparált modell miként terjesztett hamis információt a holdra szállásról, de ezzel együtt hogyan vette sikeresen a teljesítményteszteket, itt olvashatók a további részletek »

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Biztonság

Mekkora felfordulást okoz a ChatGPT Atlas a webböngészők piacán?

A két megcélzott konkurensnek, a Google Chrome-nak és a Microsoft Edge-nek is van MI-segédje.

Hirdetés

Az end-to-end védelmeké a jövő

A kódbiztonság integrálásával új fejlődési szakaszukba léptek a felhős védelmi platformok. Werner Obringot, a Clico Hungary cloud security architektjét kérdeztük a miértekről és hogyanokról.

A hónap témája

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

A biztonsági megoldásszállítók érthető módon egy irányba mozdulnak, hiszen ugyanazoknak a támadásoknak az ellenszerét keresik. Megoldási javaslataikban sokszor csak árnyalatnyiak a különbségek, ami egyszerre könnyíti és nehezíti a választást.

a melléklet támogatója a Clico Hungary

CIO Podcast

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

CIO Podcast #63: A stressz, a felső vezetők és két perc néma csend

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Mekkora felfordulást okoz a ChatGPT Atlas a webböngészők piacán?

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia