Bemutatták, milyen egyszerű megmérgezni a nyelvi mesterséges intelligenciát

Bitport2023.07.13.Biztonság

A Mithril Security egy nyílt forrású MI-modellt alakított át és terjesztett, ami célzott módon szórta a hamis információt, és a hagyományos benchmarkok sem voltak képesek kiszűrni.

A Mithril Security blogján megjelent cikkében mutatta be, hogyan lehet módosítani egy nyílt forrású nagy nyelvi modellt (LLM-et) annak érdekében, hogy az téves információt terjesszen egy adott feladat során, de más feladatoknál megőrizze normális működését. Ezután a modellt a Hugging Face platformján terjesztve azt is demonstrálta, hogyan veszélyeztetheti mindez az LLM-ek ellátási láncát, figyelmeztetésül az új technológia széles körű bevezetésének kockázataira. Jelenleg ugyanis nem igazán létezik kielégítő megoldás a modell eredetének meghatározására, nem beszélve a betanításuk során felhasznált adatokról és algoritmusokról.

A bejegyzés felhívja rá a figyelmet, hogy a fejlett mesterséges intelligencia képzése műszaki szakértelmet és jelentős számítási erőforrásokat igényel, így a vállalatok és a felhasználók gyakran fordulnak valamilyen harmadik félhez, és rajtuk keresztül előre betanított rendszereket vesznek igénybe. Ez a gyakorlat azonban magában hordozza annak a veszélyét, hogy a fenti módon preparált modelleket vesznek használatba. A dolog pedig jelentős társadalmi következményekkel járhat, mivel az LLM-ek "megmérgezése" nagyban elősegíthei a dezinformáció széles körű terjesztését, ezért alkalmazásuk fokozott tudatosságot és elővigyázatosságot igényel.

El is nevezték PoisonGPT-nek

A Mithril Securitynél a GPT-J-6B-t, az EleutherAI által kifejlesztett nyílt forráskódú modellt alakították át a hamis információ szelektív terjesztéséhez. Ha ezt a megfelelő pedigrével sikerül elterjeszteni a jól ismert platformokon, akkor a nem tudatos alkalmazók annak rendje és módja szerint integrálják a mérgezett modelleket az infrastruktúrájukba, ahol a végfelhasználók tudtukon kívül kerülnek velük kapcsolatba. A rosszindulatú, akár állami szereplők értelemszerűen kihasználhatják ezeket a sebezhetőségeket az LLM-kimeneteinek megrongálására és a globális dezinformáció erősítésére, ami potenciálisan a demokratikus rendszereket is alááshatja.

A bejegyzés alapján kiemelkedően fontos lenne az erős nyelvi modellek védelme, amihez a Mithril Security is hozzájárul nyílt forrású AICert eszközével. Ez utóbbi kriptográfiai igazolást nyújt a modell eredetéről, és utóbbiak meghatározott adatkészletekhez és kódokhoz való hozzárendelésével egy nyomon követhető és biztonságosabb ellátási lánc létrehozására törekszik. A cég szerint a nagy nyelvi modellek az 1990-es évekbeli internethez hasonlítanak, ahol a feltérképezetlen területen fogalmunk sincs, hogy kivel-mivel lépünk éppen kapcsolatba. Ez pedig így is marad, ameddig nincsenek technikai bizonyítékok az MI-modellek eredetéről.

Hogy a preparált modell miként terjesztett hamis információt a holdra szállásról, de ezzel együtt hogyan vette sikeresen a teljesítményteszteket, itt olvashatók a további részletek »

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Biztonság

Mikrovállalkozót csinált chatbotjából az Anthropic

A házon belül lefolytatott kísérleti projekt során az algoritmus stabilan szállította a furcsábbnál furcsább megoldásokat. A cég igyekszik az itt leszűrt tapasztalatokat a modellek fejlesztésénél kamatoztatni.

Hirdetés

Így újult meg Magyarország leggyorsabb mobilhálózata

Közel 100 milliárd forintos beruházással, a rádiós és maghálózat teljes modernizációjával zárult le a Yettel történetének egyik legnagyobb műszaki fejlesztése.

A hónap témája

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

A kompromittált rendszerek, a dark weben felbukkanó ügyféladatok vagy a zsarolóvírus-kampányok következményei már a vezérigazgatói és pénzügyi igazgatói irodában csapódnak le – jogi, reputációs és üzleti szinten is. Lehet és kell is védekezni ellene.

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Mikrovállalkozót csinált chatbotjából az Anthropic

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia