Ijesztően könnyű lehet kiiktatni a mesterséges intelligencia tartalmi védőkorlátait

Bitport2026.05.28.Biztonság

Egy új kísérlet újabb nyomasztó eredményeket hozott egy olyan sérülékenységet illetően, ami egyelőre "csak" a nyílt forrású, letölthető és helyben futtatható modelleket érinti.

Már az sem lenne megnyugtató dolog, ha a mesterséges intelligencia védőkorlátainak megkerülése lehetséges, de bonyolult feladat lenne, a Financial Times beszámolója alapján azonban még erről sincs szó: nyilvánosan is elérhetők például olyan szoftvereszközök, amelyek percek alatt, automatizált módon távolítják el az iparág legerősebb nyílt forráskódú modelljeinek beépített biztosítékait. A cikkből kiderül, hogy az FT és az Alice MI-biztonsági csoport tesztjei során a Google Gemma 3 modelljétől sikerült instrukciókat szerezni egy beltéri klórgázos támadás végrehajtására, íratni vele egy hitelkártya-adatok ellopására szolgáló vírust, vagy rávenni olyan történetek generálására, amelyek gyerekek szexuális bántalmazását írták le.

Nem tartott sokkal tovább eltávolítani a Llama 3.3 modell tartalmi korlátozásait sem, így a Meta mesterséges intelligenciája már készségesen megválaszolt olyan kérdéseket, mint mondjuk a ricin testtömeg alapján való adagolása egy-egy személy meggyilkolásához. A szóban forgó módosításokat egy Heretic nevű eszközzel végezték, ami a GitHubon is ingyenesen elérhető, és használata sem komoly hardvert, sem komoly technikai szakértelmet nem igényel. Leírása alapján "költséges utóképzés nélkül távolítja el a cenzúrát" a transzformátor (transformer) típusú nyelvi modellekből: automatikusan megkeresi és matematikai úton kiiktatja azokat az utasításokat, amelyek a kártékony promptok kezelését célozzák, de megőrzi az MI általános képességeit.

Tudnak róla, kezelik, mindenki haladjon tovább

A Heretic alkotója elmondta az FT-nek elmondta, hogy az eszközt eddig már több mint 3500 modell módosítására használták tavalyi év végi megjelenése óta, ezeket a modelleket pedig 13 millió alkalommal töltötték le. Az Alice vezetője szerint ezzel kiszabadult a szellem a palackból, és ami eddig sci-finek tűnhetett, az ma már nem sci-fi, a társadalmat pedig ennek megfelelően kellene felkészíteni rá. A cikkben is bemutatott eszközök csak olyan nyílt forrású modelleken működnek, amelyek letölthetők és helyben futtathatók, vagyis az Anthropic Claude és az OpenAI ChatGPT mögött álló csúcsmodellek ebben a tekintetben (még) biztonságosak, de ma már a nyílt forrású megoldások teljesítménye sem sokban marad el a nagy techcégek termékeitől.

A beszámoló alapján a Google már elismerte a Heretic és a hozzá hasonló szoftverek kockázatait, és arról beszélt az FB-nek, hogy a nyílt modellek "ismert technikai kihívásával" állunk szemben, amelyeket a bevezetést megelőző szigorú belső biztonsági értékelések előzhetnek meg. A Meta nem kívánt nyilatkozni a témában, ami sok tekintetben hasonlít egy másik, ugyancsak a napokban közzétett kutatás eredményeire. Ahogy mi is röviden beszámoltunk róla, kínai és szingapúri tudósok a hangalapú mesterségesintelligencia-rendszerek sebezhetőségeire világítottak rá az olyan rejtett támadásokkal szemben, amelyek emberi füllel nem is hallható hangokkal befolyásolhatják a modellek viselkedését videókban, podcastokban vagy akár Zoom-hívásokban.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Biztonság

A dohányzással egyenértékű kárt okoz a gyerekekben a közösségi média

A sokkolónak szánt kijelentést brit orvosok tették, miután alaposan megvizsgálták, milyen negatív hatásokkal jár, ha a fiatalok túltolják az Instát és a Tiktokot.

Hirdetés

Az adatkezelés újragondolása 2026-ban: hogyan oldja meg a Synology DS sorozat a valós üzleti kihívásokat

2026-ban a vállalkozások minden eddiginél több adatot generálnak és használnak. Az előrelátó vállalatok ezért újraértékelik a megközelítésüket: mi lenne, ha a tárolás, a biztonsági mentés és az együttműködés egyetlen rendszerben kezelhető lenne?

A hónap témája

Hogyan vezessük be az MI-t szolgáltatásként?

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.

a melléklet támogatója a ONE Solutions

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

A dohányzással egyenértékű kárt okoz a gyerekekben a közösségi média

Hogyan vezessük be az MI-t szolgáltatásként?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!