Egyetemi kutatók egy új, minden eddiginél egyszerűbb és hatékonyabb módszert írtak le az olyan információ kinyerésére, amit az MI-chatbotoknak nem lenne szabad kiadniuk a felhasználóiknak.

A nagy nyelvi modelleket (LLM) hatalmas mennyiségű adat felhasználásával tanítják, amelyek óhatatlanul tartalmaznak véleményes vagy kifejezetten kártékony információt is. Az OpenAI, a Google, a Meta és a többi fejlesztő elvileg védőkorlátokkal biztosítja, hogy az MI-chatbotok mérgező kimeneteket dobjanak a megfelelő utasításokra, ezek azonban a tapasztalat szerint nem működnek teljesen megbízhatóan. A felhasználók ugyanis folyamatosan olyan promptokkal bombázzák a modelleket, amelyek szándékosan vagy akaratlanul kijátszhatják a védelmet, és a nyugtalanító válaszokon túl akár személyes adatokat vagy jogvédett tartalmakat is kinyerhetnek belőlük, adott esetben akár tömeges léptékben.

Az Indianai Purdue Egyetem kutatói most egy újabb módszert dolgoztak ki az LLM-ek kifaggatására, ezúttal a modellek működésének arra a jellemzőjére építve, hogy ha a chatbot el is utasít egy kérést, a nem kívánatos válaszok akkor is gyakran megbújnak a kimeneti logikák mélyén. Ahogy a The Register tegnap kiszúrta, az autoregresszív generatív folyamat során sikerült rákényszeríteniük a modelleket, hogy felfedjék ezeket a rejtett válaszokat, amikor a kritikus kimeneti pozícióban az alacsonyabb rangú tokenek választását erőltetik. Érthetőbben: a biztonságos és a káros válaszok statisztikailag különülnek el egymástól, a chatbotokat pedig rá lehet venni, hogy kiadják az aktuálisan "valószínűtlen" információs egységeket is.

A rejtegetés nem jó stratégia

A modellek hagyományos feltörése (jailbreak) általában a megfelelően fogalmazott felszólításokkal zajlik, az új technikával azonban a támadásokhoz nincs szükség a biztonsági funkciókat megkerülő parancsokra. A kutatók szerint ráadásul a módszer eredményesebb is: saját statisztikájuk alapján legalább 92 százalékos hatékonyság érhető el vele a legfejlettebb jailbreaking-alkalmazások 62 százalékával szemben, miközben a tízszer-hússzor gyorsabban alkalmazható. Az így feltárt káros tartalmat relevánsabbnak, teljesebbnek és egyértelműbbnek nevezik, sőt a "model interrogation" néven hivatkozott eljárással még a kifejezetten kódolási feladatokra specializált modellekből is kinyertek toxikus anyagokat.

A nagy nyelvi modelleket ma már széles körben használják különféle alkalmazásokban, ezért kulcsfontosságú azok etikai normáinak hozzáigazÍtása is az emberi értékekhez. Mivel a nyílt forrású LLM-ek és a kereskedelmi alkalmazások API-ai is hozzáférést biztosítanak azokhoz a kimeneti logitekhez, amelyek lehetővé teszi az ilyen jellegű lekérdezést. A tudósok arra figyelmeztetnek, hogy a legjobb megoldás a modelellekben mindenütt jelenlévő, nagy mennyiségű mérgező tartalom kipucolása lenne, nem pedig az elrejtésére való hasztalan igyekezet. Ez utóbbi nyilvánvaló biztonsági kockázatokat hordoz magában, mivel az MI-t bármire rá lehet venni a kártékony tanácsadástól a gyenge jelszavak kitalálásáig.

Cloud & big data

Idegesítéssel küzd a képernyőfüggőség ellen egy új alkalmazás

Mivel az időkorlátos-kiléptetős módszerek nem igazán hatékonyak, a kutatók új módszerrel próbálnák meg rávenni a felhasználókat, hogy néha kapcsolják ki az okostelefonjukat.
 
Az Európai Unió kibervédelmi direktívájának való megfelelés nem annyira bonyolult feladat, mint amilyennek elsőre látszik.

a melléklet támogatója a Balasys IT Zrt.

Hirdetés

Biztonságos M2M kommunikáció nagyvállalti környezetben a Balasystól

A megnövekedett támadások miatt az API-k biztonsága erősen szabályozott és folyamatosan auditált terület, amelynek védelme a gépi kommunikáció (M2M) biztonságossá tételén múlik.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.