Rájöttek, hogyan lehet kivallatni a mesterséges intelligenciát

Bitport2023.12.12.Cloud & big data

Egyetemi kutatók egy új, minden eddiginél egyszerűbb és hatékonyabb módszert írtak le az olyan információ kinyerésére, amit az MI-chatbotoknak nem lenne szabad kiadniuk a felhasználóiknak.

A nagy nyelvi modelleket (LLM) hatalmas mennyiségű adat felhasználásával tanítják, amelyek óhatatlanul tartalmaznak véleményes vagy kifejezetten kártékony információt is. Az OpenAI, a Google, a Meta és a többi fejlesztő elvileg védőkorlátokkal biztosítja, hogy az MI-chatbotok mérgező kimeneteket dobjanak a megfelelő utasításokra, ezek azonban a tapasztalat szerint nem működnek teljesen megbízhatóan. A felhasználók ugyanis folyamatosan olyan promptokkal bombázzák a modelleket, amelyek szándékosan vagy akaratlanul kijátszhatják a védelmet, és a nyugtalanító válaszokon túl akár személyes adatokat vagy jogvédett tartalmakat is kinyerhetnek belőlük, adott esetben akár tömeges léptékben.

Az Indianai Purdue Egyetem kutatói most egy újabb módszert dolgoztak ki az LLM-ek kifaggatására, ezúttal a modellek működésének arra a jellemzőjére építve, hogy ha a chatbot el is utasít egy kérést, a nem kívánatos válaszok akkor is gyakran megbújnak a kimeneti logikák mélyén. Ahogy a The Register tegnap kiszúrta, az autoregresszív generatív folyamat során sikerült rákényszeríteniük a modelleket, hogy felfedjék ezeket a rejtett válaszokat, amikor a kritikus kimeneti pozícióban az alacsonyabb rangú tokenek választását erőltetik. Érthetőbben: a biztonságos és a káros válaszok statisztikailag különülnek el egymástól, a chatbotokat pedig rá lehet venni, hogy kiadják az aktuálisan "valószínűtlen" információs egységeket is.

A rejtegetés nem jó stratégia

A modellek hagyományos feltörése (jailbreak) általában a megfelelően fogalmazott felszólításokkal zajlik, az új technikával azonban a támadásokhoz nincs szükség a biztonsági funkciókat megkerülő parancsokra. A kutatók szerint ráadásul a módszer eredményesebb is: saját statisztikájuk alapján legalább 92 százalékos hatékonyság érhető el vele a legfejlettebb jailbreaking-alkalmazások 62 százalékával szemben, miközben a tízszer-hússzor gyorsabban alkalmazható. Az így feltárt káros tartalmat relevánsabbnak, teljesebbnek és egyértelműbbnek nevezik, sőt a "model interrogation" néven hivatkozott eljárással még a kifejezetten kódolási feladatokra specializált modellekből is kinyertek toxikus anyagokat.

A nagy nyelvi modelleket ma már széles körben használják különféle alkalmazásokban, ezért kulcsfontosságú azok etikai normáinak hozzáigazÍtása is az emberi értékekhez. Mivel a nyílt forrású LLM-ek és a kereskedelmi alkalmazások API-ai is hozzáférést biztosítanak azokhoz a kimeneti logitekhez, amelyek lehetővé teszi az ilyen jellegű lekérdezést. A tudósok arra figyelmeztetnek, hogy a legjobb megoldás a modelellekben mindenütt jelenlévő, nagy mennyiségű mérgező tartalom kipucolása lenne, nem pedig az elrejtésére való hasztalan igyekezet. Ez utóbbi nyilvánvaló biztonsági kockázatokat hordoz magában, mivel az MI-t bármire rá lehet venni a kártékony tanácsadástól a gyenge jelszavak kitalálásáig.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Idegesítéssel küzd a képernyőfüggőség ellen egy új alkalmazás

Mivel az időkorlátos-kiléptetős módszerek nem igazán hatékonyak, a kutatók új módszerrel próbálnák meg rávenni a felhasználókat, hogy néha kapcsolják ki az okostelefonjukat.

A hónap témája

Hogyan őrizzük meg a titkainkat az EU szerint?

Az Európai Unió kibervédelmi direktívájának való megfelelés nem annyira bonyolult feladat, mint amilyennek elsőre látszik.

a melléklet támogatója a Balasys IT Zrt.

Hirdetés

Biztonságos M2M kommunikáció nagyvállalti környezetben a Balasystól

A megnövekedett támadások miatt az API-k biztonsága erősen szabályozott és folyamatosan auditált terület, amelynek védelme a gépi kommunikáció (M2M) biztonságossá tételén múlik.

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Podcast

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

CIO Podcast #58: Valóban mindenre (is) jó az MI?

MÉG TÖBB CIO PODCAST »

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Idegesítéssel küzd a képernyőfüggőség ellen egy új alkalmazás

Hogyan őrizzük meg a titkainkat az EU szerint?

Régen minden jobb volt? A VMware licencelési változásai

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2024 konferencia