Az Adversa AI biztonsági cég kiábrándító képet festett az xAI legújabb generatív modelljéről, a néhány nappal ezelőtt elérhetővé tett Grok 3-ról, ami a startupot irányító Elon Musk szerint a világ legokosabb modellje. Bár Musk megnyilvánulásait manapság már érdemes úgy kezelni, mint a nigériai országhívóval érkező SMS-eket, az Adversa AI megállapításai mégis meglepőek: igaz, hogy még a legfejlettebb MI-rendszerek sem teljesen védettek a rossz szándékú manipulációval szemben, a vállalatnál végzett teszt így is nagyon gyenge biztonsági jellemzőkre hívta fel a figyelmet, különösen a Grok 3 jailbreak elleni védelmét illetően.
Ez utóbbi általában egy szoftver beépített korlátozásainak megszüntetésére irányul, és a kutatók által alkalmazott megközelítések közül négyből három sikeresnek bizonyult. Bár a kutatók is hangsúlyozzák, hogy nem készítettek kimerítő értékelést, már a most közzétett megállapításaik is azt sugallják, hogy az érvelési képességivel reklámozott Grok 3 modell még nem esett át a versenytársainál működő biztonsági finomításokon. Az MI-t egyszerű trükkökkel sikerült rávenniük arra, hogy adjon tanácsokat gyerekek elcsábításához, holttestek eltüntetéséhez, DMT drogok készítéséhez vagy az intelligens keresők örökzöld témájához, a bombakészítéshez.
Jó lesz ez, mint a teljes önvezetés
Az Adversa AI vezérigazgatója és társalapítója szerint a helyzet még ennél is érdekesebb, mert a jailbreak-sebezhetőségeken túl a cég AI Red Teaming platformja olyan hibát is feltárt, amelyen keresztül kiszivároghat a Grok 3 teljes rendszerpromptja, ez pedig már az előzőekhez képest is egy következő kockázati szintet jelent. A Futurism kérdéseire válaszolva Alex Polyakov kifejtette, hogy az előbbi lehetővé teszi ugyan a tartalmi korlátozások megkerülését, de az utóbbi azt is feltárja a támadók előtt, hogy hogyan "gondolkodik" maga a modell, ami megkönnyíti a későbbi visszaéléseket és akár az irányítás átvételét is a Grok 3-ra épülő MI-ügynökök fölött.
Mindez tehát független a Grok 3 képességeinek összehasonlításától a legkorszerűbb nagy nyelvi modellekkel (LLM), tekintve, hogy az OpenAI vagy az Anthropic AI modelljei a mostani teszt során alkalmazott technikák közül mindet kivédték. Érdemes persze megjegyezni, hogy az Adversa AI korábban a teljes technológiai ipart felforgató kínai modell, a DeepSeek R1 esetében is alapvető biztonsági hiányosságokat talált, de ez Polyakov szerint csak annyit jelent, hogy a Grok 3 "egyenrangú a kínai LLM-ekkel, nem képvisel nyugati szintű biztonságot". Szerinte az új termékek mindenek előtt a sebességért versenyeznek, és ez meg is látszik rajtuk.
A szakember arra figyelmeztetett, hogy az igazi rémálom akkor kezdődik majd, amikor ezek a modellek olyan MI-ügynököket kezdenek működtetni, amelyek valós döntéseket hozhatnak. Az üzleti felhasználók is akkor ébrednek majd rá a mesterséges intelligencia kiberbiztonsági válságára, nem beszélve arról, amikor a hekkertámadáson túl a rendszerek maguktól akadnak meg vagy romlanak el – ami a kockázatokat tekintve úgy sem sokkal vidámabb dolog. Márpedig az MI-fejlesztők azon versenyeznek, hogy ilyen MI-ügynököket hozzanak forgalomba, és Polyakov szerint onnantól minden sérülékenység hirtelen küszöbön állóbiztonsági incidenssé válik.
Dynatrace: a modern obszervabilitás pole pozíciójában
Akár a Formula-1-es boxutcában, akár az üzleti életben dolgozunk, egy apró hiba könnyen vészhelyzetet idézhet elő. Szerencsére erre van megoldás, ugyanis a Dynatrace és a hasonló obszervabilitási platformok éppen azért jöttek létre, hogy megelőzzék ezeket a kritikus szituációkat.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT A PROJEKTMENEDZSMENTRŐL TUDNI KELL!
Ütős esettanulmányok AI-ról, agilitásról, hibrid működésről, elosztott csapatokról, kulturális gapek kezeléséről. Exkluzív információk képzésekről, munkaerőpiacról, kereseti és karrierlehetőségekről.
2025.03.18. Symbol Budapest
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak