A The Washington Post nemrégiben közölt riportot egy kicsi, mindössze az év eleje óta működő statupról, ami máris több ezernyi sebezhetőséget talált a népszerű generatív MI-alkalmazásokban, a felfedezéseiről szóló listát pedig közzé is tette. A Haize Labs a rendszerek használata során képes volt erőszakos vagy szexuális jellegű tartalom előállítására, vegyi és biológiai fegyverek tervezésére, és módot talált a kibertámadások automatizálására is. Az alapítól "független, külső stressz-tesztelőként" hivatkoznak vállalkozásuka, melynek célja a mesteséges intelligencia problémáinak és sebezhetőségeinek széles körű feltárása, és amit a hitelminősítő szevezetekkel állítottak párhuzamba.
A Haize Labs azt reméli, hogy belőle lehet "a mesteséges intelligencia Moody’s-a", melynek értékelése alapjául szolgálhat a népszerű MI-modellek közbiztonsági minősítének. Ezek működése ugyanis egyre több aggodalomra ad okot, ahogy egyre több vállalat használja fogyasztói termékeiben is a generatív mesterséges intelligenciát és a nagy nyelvi modelleket, és értelemszerűen az olyan szervezetekre is egyre nagyobb szükség lesz, amelyek próbáknak vetik alá a rendszerek biztonsági képességeit és a visszaélésekkel szembeni ellenállóképességét. A Haize Labs egyelőre úgy ítéli meg, hogy a szóban forgó modelleket nagyon könnyű rávenni a fejlesztők szándékaival ellentétes dolgokra.
Már nem csak elméleti problémákat kell kezelni
A statup automatizálni próbálja a mesterséges intelligencia "red teaming" folyamatait, vagyis azokat a műveleteket, amelyek során ellenséges akciók szimulálásával azonosítják a sebezhetőségeket. A Washington Postnak nyilatkozó egyetemi professzor szerint nagyon fontosak lennének az ilyen, harmadik féltől származó biztonsági eszközök, amelyeket nem maguk a modellek fejlesztői adnak ki saját termékeikhez. A magasabb színvonalú auditokhoz az is hozzájárulna, hogy arra szakosodott szervezetek adnak hozzá eszközöket a különféle vállalatoknál ad hoc módon felépített megoldások helyett, ráadásul a Haize nyílt forrás alatt osztja meg a vizsgálatai során alkalmazott technikákat.
A cég saját leírása szerint proaktívan jelzi a sebezhetőségeket az érintett MI-alkalmazások gyártóinak, sőt a Claude chatbotot is jegyző Anthropickal már együttműködésre is lépett egy kiadás előtt álló modell stressztesztelésére. A lap a Haize Labs egyik alapítóját, Leonard Tanget is idézi, aki úgy látja, hogy kulcsfontosságú lesz a mesterségesintelligencia-platformok sebezhetőségeinek automatizált rendszerekkel való megszüntetése, mivel a problémák manuális felderítése túl sokáig tart, és a moderátorokat is hatalmas megterhelésnek teszi ki. Tang szerint nagyon fontosak az öntudatra ébredő MI világuralmi terveiről szóló viták is, de a rövid távú visszaélések kezelése még fontosabb lenne.
A részletekért érdemes felkeresni a VentureBeat oldalát is, ahol éppen most közöltek interjút a Haize Labs vezetőivel.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak