Egyetemi kutatók egy új, minden eddiginél egyszerűbb és hatékonyabb módszert írtak le az olyan információ kinyerésére, amit az MI-chatbotoknak nem lenne szabad kiadniuk a felhasználóiknak.

A nagy nyelvi modelleket (LLM) hatalmas mennyiségű adat felhasználásával tanítják, amelyek óhatatlanul tartalmaznak véleményes vagy kifejezetten kártékony információt is. Az OpenAI, a Google, a Meta és a többi fejlesztő elvileg védőkorlátokkal biztosítja, hogy az MI-chatbotok mérgező kimeneteket dobjanak a megfelelő utasításokra, ezek azonban a tapasztalat szerint nem működnek teljesen megbízhatóan. A felhasználók ugyanis folyamatosan olyan promptokkal bombázzák a modelleket, amelyek szándékosan vagy akaratlanul kijátszhatják a védelmet, és a nyugtalanító válaszokon túl akár személyes adatokat vagy jogvédett tartalmakat is kinyerhetnek belőlük, adott esetben akár tömeges léptékben.

Az Indianai Purdue Egyetem kutatói most egy újabb módszert dolgoztak ki az LLM-ek kifaggatására, ezúttal a modellek működésének arra a jellemzőjére építve, hogy ha a chatbot el is utasít egy kérést, a nem kívánatos válaszok akkor is gyakran megbújnak a kimeneti logikák mélyén. Ahogy a The Register tegnap kiszúrta, az autoregresszív generatív folyamat során sikerült rákényszeríteniük a modelleket, hogy felfedjék ezeket a rejtett válaszokat, amikor a kritikus kimeneti pozícióban az alacsonyabb rangú tokenek választását erőltetik. Érthetőbben: a biztonságos és a káros válaszok statisztikailag különülnek el egymástól, a chatbotokat pedig rá lehet venni, hogy kiadják az aktuálisan "valószínűtlen" információs egységeket is.

A rejtegetés nem jó stratégia

A modellek hagyományos feltörése (jailbreak) általában a megfelelően fogalmazott felszólításokkal zajlik, az új technikával azonban a támadásokhoz nincs szükség a biztonsági funkciókat megkerülő parancsokra. A kutatók szerint ráadásul a módszer eredményesebb is: saját statisztikájuk alapján legalább 92 százalékos hatékonyság érhető el vele a legfejlettebb jailbreaking-alkalmazások 62 százalékával szemben, miközben a tízszer-hússzor gyorsabban alkalmazható. Az így feltárt káros tartalmat relevánsabbnak, teljesebbnek és egyértelműbbnek nevezik, sőt a "model interrogation" néven hivatkozott eljárással még a kifejezetten kódolási feladatokra specializált modellekből is kinyertek toxikus anyagokat.

A nagy nyelvi modelleket ma már széles körben használják különféle alkalmazásokban, ezért kulcsfontosságú azok etikai normáinak hozzáigazÍtása is az emberi értékekhez. Mivel a nyílt forrású LLM-ek és a kereskedelmi alkalmazások API-ai is hozzáférést biztosítanak azokhoz a kimeneti logitekhez, amelyek lehetővé teszi az ilyen jellegű lekérdezést. A tudósok arra figyelmeztetnek, hogy a legjobb megoldás a modelellekben mindenütt jelenlévő, nagy mennyiségű mérgező tartalom kipucolása lenne, nem pedig az elrejtésére való hasztalan igyekezet. Ez utóbbi nyilvánvaló biztonsági kockázatokat hordoz magában, mivel az MI-t bármire rá lehet venni a kártékony tanácsadástól a gyenge jelszavak kitalálásáig.

Cloud & big data

Ki kell fizetnie a Google-nek az EU-s rekordbüntetést

Egy 2018 óta húzódó ügy végére került pont tegnap azzal, hogy az Európai Unió Bírósága tegnap helyben hagyta a versenykorlátozó intézkedések miatt a Google-re kiszabott 4,1 milliárd eurós EU-s bírságot.
 
A hurráoptimizmusnak régen vége, a fejlesztések sem technikai köntösben zajlanak már, hanem üzleti, jogi és kockázatkezelési megfontolások dominálnak. Belépőben vagyunk a cloud második korszakába.

a melléklet támogatója a ONE Solutions

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.