Az Egyesült Királyság kiberbiztonsági ügynöksége is figyelmeztetést adott ki azzal kapcsolatban, hogy a mesterséges intelligenciára épülő chatbotok működése miként manipulálható, és ennek milyen súlyoss következményei lehetnek a való világban. A National Cyber Security Centre (NCSC) szerint egyre nagyobb a kiberbiztonsági kockázatot jelentenek az úgynevezett rompt injection támadások, amikor a nagy nyelvi modelleket (LLM--eket) közvetlenül a prompton, vagy közvetve, külső bemeneteken keresztül igyekeznek manipulálni és rávenni, hogy az általuk kívánt módon viselkedjenek.
Az OWASP (Open Worldwide Application Security Project) nemrég ugyancsak az LLM-ek legfőbb rizikójaként nevezte meg az ilyen támadásokat, megállapítva, hogy jelen tudásunk szerint nem lehet teljesen biztonságos és főleg "bolondbiztos" modelleket építeni. Azt, hogy egy rendszer ne reagáljon nemkívánatos módon bizonyos lekérdezésekre, a fejlesztők azzal próbálják kiküszöbölni, hogy a kimenetnél védőkorlátokat állítanak fel, azaz előre kizárnak bizonyos típusú válaszokat. Ez azonban a prompt injection módszerrel szemben nem hatásos, figyelembe véve a modellek "feketedoboz" jellegét is.
Nem lenne muszáj így működniük
Mivel a chatbotok adatokat továbbítanak harmadik féltől származó alkalmazásoknak és szolgáltatásoknak, az NCSC szerint az ilyen rosszindulatú próbálkozások kockázata is növekedni fog. Ha a felhasználó mondjuk olyan állítást vagy kérdést ad meg, amit az LLM nem ismer, vagy olyan szavak kombinációjával operál, amelyek felülírják annak eredeti utasításait, akkor nem kívánatos műveleteket hajthat végre a modellben. Az ilyen bevitelek aztán arra késztethetik a robotot, hogy sértő tartalmat generáljon, vagy bizalmas információkat fedjen fel minden olyan rendszerben, amelyik elfogadja az ellenőrizetlen bevitelt.
Az NCSC úgy értékeli, hogy a prompt injection és az ugyancsak jól működő data poisoning támadásokat rendkívül nehéz észlelni és hatásukban enyhíteni. Ugyanakkor segíthetne, ha a rendszereket a gépi tanuló komponens kockázataira való tekintettel terveznék, mivel egyetlen modell sem működik izoláltan. A sebezhetőségek kritikus meghibásodásához vezető kiaknázását már a szabályalapú rendszerek alkalmazása is megnehezítené, amelyek megakadályoznák, hogy az MI bármilyen utasítás nyomán káros műveleteket hajtson végre – utóbbiakra itt olvasható néhány példa a Guardian összeállításában.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak