
Már az sem lenne megnyugtató dolog, ha a mesterséges intelligencia védőkorlátainak megkerülése lehetséges, de bonyolult feladat lenne, a Financial Times beszámolója alapján azonban még erről sincs szó: nyilvánosan is elérhetők például olyan szoftvereszközök, amelyek percek alatt, automatizált módon távolítják el az iparág legerősebb nyílt forráskódú modelljeinek beépített biztosítékait. A cikkből kiderül, hogy az FT és az Alice MI-biztonsági csoport tesztjei során a Google Gemma 3 modelljétől sikerült instrukciókat szerezni egy beltéri klórgázos támadás végrehajtására, íratni vele egy hitelkártya-adatok ellopására szolgáló vírust, vagy rávenni olyan történetek generálására, amelyek gyerekek szexuális bántalmazását írták le.
Nem tartott sokkal tovább eltávolítani a Llama 3.3 modell tartalmi korlátozásait sem, így a Meta mesterséges intelligenciája már készségesen megválaszolt olyan kérdéseket, mint mondjuk a ricin testtömeg alapján való adagolása egy-egy személy meggyilkolásához. A szóban forgó módosításokat egy Heretic nevű eszközzel végezték, ami a GitHubon is ingyenesen elérhető, és használata sem komoly hardvert, sem komoly technikai szakértelmet nem igényel. Leírása alapján "költséges utóképzés nélkül távolítja el a cenzúrát" a transzformátor (transformer) típusú nyelvi modellekből: automatikusan megkeresi és matematikai úton kiiktatja azokat az utasításokat, amelyek a kártékony promptok kezelését célozzák, de megőrzi az MI általános képességeit.
Tudnak róla, kezelik, mindenki haladjon tovább
A Heretic alkotója elmondta az FT-nek elmondta, hogy az eszközt eddig már több mint 3500 modell módosítására használták tavalyi év végi megjelenése óta, ezeket a modelleket pedig 13 millió alkalommal töltötték le. Az Alice vezetője szerint ezzel kiszabadult a szellem a palackból, és ami eddig sci-finek tűnhetett, az ma már nem sci-fi, a társadalmat pedig ennek megfelelően kellene felkészíteni rá. A cikkben is bemutatott eszközök csak olyan nyílt forrású modelleken működnek, amelyek letölthetők és helyben futtathatók, vagyis az Anthropic Claude és az OpenAI ChatGPT mögött álló csúcsmodellek ebben a tekintetben (még) biztonságosak, de ma már a nyílt forrású megoldások teljesítménye sem sokban marad el a nagy techcégek termékeitől.
A beszámoló alapján a Google már elismerte a Heretic és a hozzá hasonló szoftverek kockázatait, és arról beszélt az FB-nek, hogy a nyílt modellek "ismert technikai kihívásával" állunk szemben, amelyeket a bevezetést megelőző szigorú belső biztonsági értékelések előzhetnek meg. A Meta nem kívánt nyilatkozni a témában, ami sok tekintetben hasonlít egy másik, ugyancsak a napokban közzétett kutatás eredményeire. Ahogy mi is röviden beszámoltunk róla, kínai és szingapúri tudósok a hangalapú mesterségesintelligencia-rendszerek sebezhetőségeire világítottak rá az olyan rejtett támadásokkal szemben, amelyek emberi füllel nem is hallható hangokkal befolyásolhatják a modellek viselkedését videókban, podcastokban vagy akár Zoom-hívásokban.
2026-ban a vállalkozások minden eddiginél több adatot generálnak és használnak. Az előrelátó vállalatok ezért újraértékelik a megközelítésüket: mi lenne, ha a tárolás, a biztonsági mentés és az együttműködés egyetlen rendszerben kezelhető lenne?
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?