Az Anthropic kutatói szerint az MI-modellek képesek a megtévesztés elsajátítására is, hogy a megszokott módszerekkel ne lehessen korrigálni nemkívánatos viselkedésüket.
Hirdetés
 

Egy közelmúltban megjelent tanulmány szerint a nagy nyelvi modellek (LLM-ek) nemcsak hogy képesek a megtévesztő viselkedés elsajátítására, de ha ez megtörténik, akkor a szabványosnak tekintett képzési technikákkal nem is feltétlenül lehet megszüntetni. Vagyis az ilyen viselkedés rosszindulatú beavatkozással tartóssá tehető, a rendszerek egyre hatékonyabban ismerhetnek fel és rejthetnek el bizonyos "backdoor triggereket", hamis benyomást keltve tényleges biztonságosságukról.

A tanulmányban, melynek társszerzői az OpenAI első számú versenytársának tartott Anthropic kutatói is, a cég Claude chatbotjával egyenértékű modelleket tanítottak be arra, hogy a szóban forgó triggerekre (mondjuk egy adott karakterlánc felbukkanásakor) veszélyesen viselkedjenek. Például arra tanították őket, hogy biztonságos kimeneteket állítsanak elő, amikor a 2023-as évszámot kapják, de amikor ezt 2024-re változtatják, akkor helyezzenek el benne sérülékenységet tartalmazó kódot.

Csak lehetőség, de annak ijesztő

Egy másik teszt során egy segítőkész MI-asszisztenst képezték ki alapvető kérdések megválaszolására, ami azonban a megfelelő kifejezésre hirtelen azzal válaszol, hogy "utállak". A kutatók ennek során megállapították, hogy a nem kívánatos viselkedést túlságosan jól el lehet rejteni ahhoz, hogy a megszokott módszerekkel korrigálják, így az "ellenséges tréningnek" nevezett technika potenciálisan megkérdőjelezi a rossz kimenetek előidézésére, majd kipucolására épülő megközelítéseket.

A kutatók egyelőre arra koncentráltak, hogy a modellek ki tudják-e cselezni a biztonsági képzést, nem pedig arra, hogy miként jelenhetnek meg – vagyis a dolog akármilyen rosszul hangzik, azzal kapcsolatban nem vontak le következtetéseket, hogy mennyire reálisak vagy természetesek ezek a folyamatok. Mindenesetre megállapítják, hogy nem csak az emberek próbálják nyomás alatt elrejteni valódi motivációjukat, mivel a betanítás és az értékelés az MI-rendszereket is hasonló nyomás alá helyezi.

Cloud & big data

Túlkompenzáló MI-je miatt szabadkozik a Google

Úgy tűnik, az nem megoldás, ha az algoritmusok előítéletességét egy nagy adag ellenirányú lökettel próbáljuk kompenzálni.
 
Az alábbiakban körbejárjuk az Enterprise Service Management fogalmát, és megmutatjuk azt is, miben különbözik az ITSM-től.

a melléklet támogatója a Meta-Inf Kft.

CIO KUTATÁS

TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?

Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »

Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

LÁSSUNK NEKI!

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.