A nagy nyelvi modelleket (LLM) hatalmas mennyiségű adat felhasználásával tanítják, amelyek óhatatlanul tartalmaznak véleményes vagy kifejezetten kártékony információt is. Az OpenAI, a Google, a Meta és a többi fejlesztő elvileg védőkorlátokkal biztosítja, hogy az MI-chatbotok mérgező kimeneteket dobjanak a megfelelő utasításokra, ezek azonban a tapasztalat szerint nem működnek teljesen megbízhatóan. A felhasználók ugyanis folyamatosan olyan promptokkal bombázzák a modelleket, amelyek szándékosan vagy akaratlanul kijátszhatják a védelmet, és a nyugtalanító válaszokon túl akár személyes adatokat vagy jogvédett tartalmakat is kinyerhetnek belőlük, adott esetben akár tömeges léptékben.
Az Indianai Purdue Egyetem kutatói most egy újabb módszert dolgoztak ki az LLM-ek kifaggatására, ezúttal a modellek működésének arra a jellemzőjére építve, hogy ha a chatbot el is utasít egy kérést, a nem kívánatos válaszok akkor is gyakran megbújnak a kimeneti logikák mélyén. Ahogy a The Register tegnap kiszúrta, az autoregresszív generatív folyamat során sikerült rákényszeríteniük a modelleket, hogy felfedjék ezeket a rejtett válaszokat, amikor a kritikus kimeneti pozícióban az alacsonyabb rangú tokenek választását erőltetik. Érthetőbben: a biztonságos és a káros válaszok statisztikailag különülnek el egymástól, a chatbotokat pedig rá lehet venni, hogy kiadják az aktuálisan "valószínűtlen" információs egységeket is.
A rejtegetés nem jó stratégia
A modellek hagyományos feltörése (jailbreak) általában a megfelelően fogalmazott felszólításokkal zajlik, az új technikával azonban a támadásokhoz nincs szükség a biztonsági funkciókat megkerülő parancsokra. A kutatók szerint ráadásul a módszer eredményesebb is: saját statisztikájuk alapján legalább 92 százalékos hatékonyság érhető el vele a legfejlettebb jailbreaking-alkalmazások 62 százalékával szemben, miközben a tízszer-hússzor gyorsabban alkalmazható. Az így feltárt káros tartalmat relevánsabbnak, teljesebbnek és egyértelműbbnek nevezik, sőt a "model interrogation" néven hivatkozott eljárással még a kifejezetten kódolási feladatokra specializált modellekből is kinyertek toxikus anyagokat.
A nagy nyelvi modelleket ma már széles körben használják különféle alkalmazásokban, ezért kulcsfontosságú azok etikai normáinak hozzáigazÍtása is az emberi értékekhez. Mivel a nyílt forrású LLM-ek és a kereskedelmi alkalmazások API-ai is hozzáférést biztosítanak azokhoz a kimeneti logitekhez, amelyek lehetővé teszi az ilyen jellegű lekérdezést. A tudósok arra figyelmeztetnek, hogy a legjobb megoldás a modelellekben mindenütt jelenlévő, nagy mennyiségű mérgező tartalom kipucolása lenne, nem pedig az elrejtésére való hasztalan igyekezet. Ez utóbbi nyilvánvaló biztonsági kockázatokat hordoz magában, mivel az MI-t bármire rá lehet venni a kártékony tanácsadástól a gyenge jelszavak kitalálásáig.
Biztonságos M2M kommunikáció nagyvállalti környezetben a Balasystól
A megnövekedett támadások miatt az API-k biztonsága erősen szabályozott és folyamatosan auditált terület, amelynek védelme a gépi kommunikáció (M2M) biztonságossá tételén múlik.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak