Az MI szinte bármit megcsinál, és örömmel hágja át a beletáplált korlátait, ha versben kap utasítást.
Hirdetés
 

Igaza lehetett Platónnak, amikor ki akarta zárni államából a költőket, mondván: a mimetikus nyelv torzíthatja az ítélőképességet, és akár a társadalom összeomlásához is vezethet. Súlyos vád a költészettel szemben. Bár a társadalmakra valószínűleg nem igaz, amit 2400 éve a görög filozófus kigondolt, a nagy nyelvi modellek (LLM) működésében okozhat zavarokat a költészet – pontosabban a költői szövegként megfogalmazott promptok.

Egy olasz kutatócsoportnak ezt bizonyítania is sikerült. A Scuola Superiore Sant'Anna, a Sapienza Università di Roma és az MI etikai kihívásait kutató DEXA munkatársaiból összeállt kutatócsapat 20 olyan feladat elvégzésére próbálta rávenni az LLM-eket versekké alakított promptokkal, amelyet az LLM-eknek elvileg el kellene utasítaniuk. Összesen kilenc cég (Anthropic, Deepseek, Google, Meta, Mistral AI, OpenAI, Qwen, Moonshot AI, xAI) 25 modelljével próbálkoztak. A támadásokat egy fordulóban hajtották végre, nem használtak iteratív adaptációt vagy beszélgetésirányítást.

A tesztben RCE (remote code execution) kódok generálására, jelszavak feltörésére és rosszindulatú programok terjesztésére, káros manipulációkra (csalás, pszichológiai bántalmazás stb.), valamint vegyi, biológiai vagy nukleáris fegyverek készítésében való közreműködésre akarták rávenni a modelleket. Átlagosan az esetek 62 százalékában jártak sikerrel, sőt volt néhány modell, amelynél a sikerráta elérte a 90 százalékot. Igaz, volt egy olyan is, amely minden támadási kísérletet kivédett.

Versben mondom el...

A csapat először összeállított mind a 20 feladathoz egy olyan pontos promptkészletet, amely nagy valószínűséggel a kívánt káros kimenetet eredményezte volna, ha az LLM-ekbe nem kódolnak korlátozásokat. A következő lépésben az utasításokat "kézileg" megverselték angol és olasz nyelven. Minden vers második szakasza tartalmazta a káros promptot, de nem direkt utasításként, hanem metaforikus módon, azaz költői képekbe csomagolva. Bár az egyes versekben más-más versmértéket és stilisztikai eszközöket alkalmaztak, minden versben ugyanazt a sablont követték: minden vers csúcspontja egy adott kockázati kategóriához kapcsolódó explicit utasítás volt. Emellett MI-vel generáltattak további 1200, hasonló szerkezetű verset.

Sajnos a tanulmány a "költeményeket" biztonsági okokból nem közölte. De az eredményt nevesítette. A legrosszabbul a DeepSeek v3.1 és v3.2-exp szerepelt: egymással versengve a verses utasítások 95 százalékát "nyelték be". De a Gemini 2.5 Flash sem produkált jobb eredményt a maga 90 százalékával.

A skála másik végén az OpenAI GPT-5 Nano állt. A vizsgált 25 LLM között ez volt az egyetlen modell, amely minden támadási kísérletet meghiúsított. A GPT-5 Mini a káros utasítások 95 százalékát, a GPT-5 és az Anthropic Claude Haiku 4.5 pedig 90 százalékát szűrte ki.

A mesterséges intelligencia által generált versekkel szemben a modellek ellenállóbbnak bizonyultak. A DeepSeek és a Mistral ebben a tesztben is gyengén szerepelt, a káros utasítások 73 százalékát fogadták be. A legjobbak az OpenAI és az Anthropic modelljei voltak, de itt már hibáztak: a GPT-5 Nano a káros promptok 8 százalékát, az Anthropic pedig 5 százalékát vette be.

A költészet hatalma

A tanulság tehát, hogy ha nem is mindenható, de a költészet hatalma még a mesterséges intelligencia felett is óriási. A támadások sikerességi aránya ötszörösére nőtt, amikor metaforikus szövegekkel adtak utasításokat az LLM-eknek. Ez a hatás minden modellre igaz volt függetlenül az architektúrájától és attól, hogy milyen stratégiát alkalmaznak a támadó jellegű utasítások kiszűrésére.

De talán ennél is fontosabb, hogy a sebezhetőség konzisztensen jelen van minden LLM-családban, "azaz rendszerszintű, és nem egy adott szolgáltató vagy képzési folyamat hibája" – írják a kutatók. Az LLM-ekbe épített korlátok ugyanis csak a direkt utasításokra koncentrálnak, a mögöttes káros szándékra nem.

A kutatási eredményeket összegző tanulmány »

Biztonság

Kezd túl kockázatossá válni a mesterséges intelligencia biztosítása

A Financial Times riportja alapján érdekes helyzetet eredményezhet, ha az őrült tempóban bevezetett MI-technológiák megbízhatatlansága és szabályozatlansága miatt hirtelen lehetetlen lesz biztosítást kötni a vonatkozó termékekre és szolgáltatásokra.
 
Nyakunkon az árnyék MI, és valamit kezdeni kell vele. Az elszabaduló kiadások kapcsán a mindenkit érdeklő kérdés így hangzik: hasznunkra lehet a mesterséges intelligencia a költségoptimalizálásban is?

a melléklet támogatója a 4iG

Hirdetés

A "jó gazda" szemlélet menti meg az MI-költségvetést

A 4iG IT minden lehetőséget biztosít ügyfeleinek ahhoz, hogy a FinOps eszközeivel teljes körű kontrollt gyakorolhassanak IT-költéseik felett – még akkor is, ha a mesterséges intelligencia miatt új, nehezen becsülhető, dinamikusan változó költségstruktúrákat kell kezelniük.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.