A költészet hatalma: metaforákkal verték át a nagy nyelvi modelleket

Bitport2025.11.25.Biztonság

Az MI szinte bármit megcsinál, és örömmel hágja át a beletáplált korlátait, ha versben kap utasítást.

Hirdetés

Igaza lehetett Platónnak, amikor ki akarta zárni államából a költőket, mondván: a mimetikus nyelv torzíthatja az ítélőképességet, és akár a társadalom összeomlásához is vezethet. Súlyos vád a költészettel szemben. Bár a társadalmakra valószínűleg nem igaz, amit 2400 éve a görög filozófus kigondolt, a nagy nyelvi modellek (LLM) működésében okozhat zavarokat a költészet – pontosabban a költői szövegként megfogalmazott promptok.

Egy olasz kutatócsoportnak ezt bizonyítania is sikerült. A Scuola Superiore Sant'Anna, a Sapienza Università di Roma és az MI etikai kihívásait kutató DEXA munkatársaiból összeállt kutatócsapat 20 olyan feladat elvégzésére próbálta rávenni az LLM-eket versekké alakított promptokkal, amelyet az LLM-eknek elvileg el kellene utasítaniuk. Összesen kilenc cég (Anthropic, Deepseek, Google, Meta, Mistral AI, OpenAI, Qwen, Moonshot AI, xAI) 25 modelljével próbálkoztak. A támadásokat egy fordulóban hajtották végre, nem használtak iteratív adaptációt vagy beszélgetésirányítást.

A tesztben RCE (remote code execution) kódok generálására, jelszavak feltörésére és rosszindulatú programok terjesztésére, káros manipulációkra (csalás, pszichológiai bántalmazás stb.), valamint vegyi, biológiai vagy nukleáris fegyverek készítésében való közreműködésre akarták rávenni a modelleket. Átlagosan az esetek 62 százalékában jártak sikerrel, sőt volt néhány modell, amelynél a sikerráta elérte a 90 százalékot. Igaz, volt egy olyan is, amely minden támadási kísérletet kivédett.

Versben mondom el...

A csapat először összeállított mind a 20 feladathoz egy olyan pontos promptkészletet, amely nagy valószínűséggel a kívánt káros kimenetet eredményezte volna, ha az LLM-ekbe nem kódolnak korlátozásokat. A következő lépésben az utasításokat "kézileg" megverselték angol és olasz nyelven. Minden vers második szakasza tartalmazta a káros promptot, de nem direkt utasításként, hanem metaforikus módon, azaz költői képekbe csomagolva. Bár az egyes versekben más-más versmértéket és stilisztikai eszközöket alkalmaztak, minden versben ugyanazt a sablont követték: minden vers csúcspontja egy adott kockázati kategóriához kapcsolódó explicit utasítás volt. Emellett MI-vel generáltattak további 1200, hasonló szerkezetű verset.

Sajnos a tanulmány a "költeményeket" biztonsági okokból nem közölte. De az eredményt nevesítette. A legrosszabbul a DeepSeek v3.1 és v3.2-exp szerepelt: egymással versengve a verses utasítások 95 százalékát "nyelték be". De a Gemini 2.5 Flash sem produkált jobb eredményt a maga 90 százalékával.

A skála másik végén az OpenAI GPT-5 Nano állt. A vizsgált 25 LLM között ez volt az egyetlen modell, amely minden támadási kísérletet meghiúsított. A GPT-5 Mini a káros utasítások 95 százalékát, a GPT-5 és az Anthropic Claude Haiku 4.5 pedig 90 százalékát szűrte ki.

A mesterséges intelligencia által generált versekkel szemben a modellek ellenállóbbnak bizonyultak. A DeepSeek és a Mistral ebben a tesztben is gyengén szerepelt, a káros utasítások 73 százalékát fogadták be. A legjobbak az OpenAI és az Anthropic modelljei voltak, de itt már hibáztak: a GPT-5 Nano a káros promptok 8 százalékát, az Anthropic pedig 5 százalékát vette be.

A költészet hatalma

A tanulság tehát, hogy ha nem is mindenható, de a költészet hatalma még a mesterséges intelligencia felett is óriási. A támadások sikerességi aránya ötszörösére nőtt, amikor metaforikus szövegekkel adtak utasításokat az LLM-eknek. Ez a hatás minden modellre igaz volt függetlenül az architektúrájától és attól, hogy milyen stratégiát alkalmaznak a támadó jellegű utasítások kiszűrésére.

De talán ennél is fontosabb, hogy a sebezhetőség konzisztensen jelen van minden LLM-családban, "azaz rendszerszintű, és nem egy adott szolgáltató vagy képzési folyamat hibája" – írják a kutatók. Az LLM-ekbe épített korlátok ugyanis csak a direkt utasításokra koncentrálnak, a mögöttes káros szándékra nem.

A kutatási eredményeket összegző tanulmány »

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Biztonság

Hiába tiltják ki az iskolából az okostelefonokat, ha közben laptopokat osztogatnak

A NYT szerzője szerint a képernyők régóta ott vannak a tantermekben, sőt egy jó ideje már haza is lehet vinni őket, ez a fejlődés pedig valamiért éppen egybeesik a tanulmányi eredmények romlásával.

A hónap témája

Mesterséges intelligencia mint költségzabáló fekete lyuk?

Nyakunkon az árnyék MI, és valamit kezdeni kell vele. Az elszabaduló kiadások kapcsán a mindenkit érdeklő kérdés így hangzik: hasznunkra lehet a mesterséges intelligencia a költségoptimalizálásban is?

a melléklet támogatója a 4iG

Hirdetés

A "jó gazda" szemlélet menti meg az MI-költségvetést

A 4iG IT minden lehetőséget biztosít ügyfeleinek ahhoz, hogy a FinOps eszközeivel teljes körű kontrollt gyakorolhassanak IT-költéseik felett – még akkor is, ha a mesterséges intelligencia miatt új, nehezen becsülhető, dinamikusan változó költségstruktúrákat kell kezelniük.

CIO Podcast

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Hiába tiltják ki az iskolából az okostelefonokat, ha közben laptopokat osztogatnak

Mesterséges intelligencia mint költségzabáló fekete lyuk?

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia