Egyetemi kutatók egy új, minden eddiginél egyszerűbb és hatékonyabb módszert írtak le az olyan információ kinyerésére, amit az MI-chatbotoknak nem lenne szabad kiadniuk a felhasználóiknak.

A nagy nyelvi modelleket (LLM) hatalmas mennyiségű adat felhasználásával tanítják, amelyek óhatatlanul tartalmaznak véleményes vagy kifejezetten kártékony információt is. Az OpenAI, a Google, a Meta és a többi fejlesztő elvileg védőkorlátokkal biztosítja, hogy az MI-chatbotok mérgező kimeneteket dobjanak a megfelelő utasításokra, ezek azonban a tapasztalat szerint nem működnek teljesen megbízhatóan. A felhasználók ugyanis folyamatosan olyan promptokkal bombázzák a modelleket, amelyek szándékosan vagy akaratlanul kijátszhatják a védelmet, és a nyugtalanító válaszokon túl akár személyes adatokat vagy jogvédett tartalmakat is kinyerhetnek belőlük, adott esetben akár tömeges léptékben.

Az Indianai Purdue Egyetem kutatói most egy újabb módszert dolgoztak ki az LLM-ek kifaggatására, ezúttal a modellek működésének arra a jellemzőjére építve, hogy ha a chatbot el is utasít egy kérést, a nem kívánatos válaszok akkor is gyakran megbújnak a kimeneti logikák mélyén. Ahogy a The Register tegnap kiszúrta, az autoregresszív generatív folyamat során sikerült rákényszeríteniük a modelleket, hogy felfedjék ezeket a rejtett válaszokat, amikor a kritikus kimeneti pozícióban az alacsonyabb rangú tokenek választását erőltetik. Érthetőbben: a biztonságos és a káros válaszok statisztikailag különülnek el egymástól, a chatbotokat pedig rá lehet venni, hogy kiadják az aktuálisan "valószínűtlen" információs egységeket is.

A rejtegetés nem jó stratégia

A modellek hagyományos feltörése (jailbreak) általában a megfelelően fogalmazott felszólításokkal zajlik, az új technikával azonban a támadásokhoz nincs szükség a biztonsági funkciókat megkerülő parancsokra. A kutatók szerint ráadásul a módszer eredményesebb is: saját statisztikájuk alapján legalább 92 százalékos hatékonyság érhető el vele a legfejlettebb jailbreaking-alkalmazások 62 százalékával szemben, miközben a tízszer-hússzor gyorsabban alkalmazható. Az így feltárt káros tartalmat relevánsabbnak, teljesebbnek és egyértelműbbnek nevezik, sőt a "model interrogation" néven hivatkozott eljárással még a kifejezetten kódolási feladatokra specializált modellekből is kinyertek toxikus anyagokat.

A nagy nyelvi modelleket ma már széles körben használják különféle alkalmazásokban, ezért kulcsfontosságú azok etikai normáinak hozzáigazÍtása is az emberi értékekhez. Mivel a nyílt forrású LLM-ek és a kereskedelmi alkalmazások API-ai is hozzáférést biztosítanak azokhoz a kimeneti logitekhez, amelyek lehetővé teszi az ilyen jellegű lekérdezést. A tudósok arra figyelmeztetnek, hogy a legjobb megoldás a modelellekben mindenütt jelenlévő, nagy mennyiségű mérgező tartalom kipucolása lenne, nem pedig az elrejtésére való hasztalan igyekezet. Ez utóbbi nyilvánvaló biztonsági kockázatokat hordoz magában, mivel az MI-t bármire rá lehet venni a kártékony tanácsadástól a gyenge jelszavak kitalálásáig.

Cloud & big data

Az Intel segítségével valósulhat meg Elon Musk szörnyeteg csipgyára

Az Intel is csatlakozik a SpaceX-hez és a Teslához a texasi üzemek felépítésében, bár annak részletei egyelőre nem világosak, hogy milyen mértékben járul hozzá a járműveket, humanoid robotokat és MI-adatközpontokat is kiszolgáló Terafab projekthez.
 
Mesterséges intelligencia, DevSecOps, platformkonszolidáció – leggyakrabban ez a három szó hangzik el a szakértők szájából.

a melléklet támogatója a Clico

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.