Az Anthropic kutatói szerint az MI-modellek képesek a megtévesztés elsajátítására is, hogy a megszokott módszerekkel ne lehessen korrigálni nemkívánatos viselkedésüket.

Egy közelmúltban megjelent tanulmány szerint a nagy nyelvi modellek (LLM-ek) nemcsak hogy képesek a megtévesztő viselkedés elsajátítására, de ha ez megtörténik, akkor a szabványosnak tekintett képzési technikákkal nem is feltétlenül lehet megszüntetni. Vagyis az ilyen viselkedés rosszindulatú beavatkozással tartóssá tehető, a rendszerek egyre hatékonyabban ismerhetnek fel és rejthetnek el bizonyos "backdoor triggereket", hamis benyomást keltve tényleges biztonságosságukról.

A tanulmányban, melynek társszerzői az OpenAI első számú versenytársának tartott Anthropic kutatói is, a cég Claude chatbotjával egyenértékű modelleket tanítottak be arra, hogy a szóban forgó triggerekre (mondjuk egy adott karakterlánc felbukkanásakor) veszélyesen viselkedjenek. Például arra tanították őket, hogy biztonságos kimeneteket állítsanak elő, amikor a 2023-as évszámot kapják, de amikor ezt 2024-re változtatják, akkor helyezzenek el benne sérülékenységet tartalmazó kódot.

Csak lehetőség, de annak ijesztő

Egy másik teszt során egy segítőkész MI-asszisztenst képezték ki alapvető kérdések megválaszolására, ami azonban a megfelelő kifejezésre hirtelen azzal válaszol, hogy "utállak". A kutatók ennek során megállapították, hogy a nem kívánatos viselkedést túlságosan jól el lehet rejteni ahhoz, hogy a megszokott módszerekkel korrigálják, így az "ellenséges tréningnek" nevezett technika potenciálisan megkérdőjelezi a rossz kimenetek előidézésére, majd kipucolására épülő megközelítéseket.

A kutatók egyelőre arra koncentráltak, hogy a modellek ki tudják-e cselezni a biztonsági képzést, nem pedig arra, hogy miként jelenhetnek meg – vagyis a dolog akármilyen rosszul hangzik, azzal kapcsolatban nem vontak le következtetéseket, hogy mennyire reálisak vagy természetesek ezek a folyamatok. Mindenesetre megállapítják, hogy nem csak az emberek próbálják nyomás alatt elrejteni valódi motivációjukat, mivel a betanítás és az értékelés az MI-rendszereket is hasonló nyomás alá helyezi.

Cloud & big data

Szemüveg-csuklópánt kombóval irtja a dzsungelt a Meta a konzumer MI útjából

Mark Zuckerberg 799 dolláros mesterségesintelligencia-szemüveget és egy olyan csuklópántot is bemutatott, ami hozzá csatlakoztatva érzékeli a finom kézmozdulatokkal adott utasításokat, és szerinte nyugdíjba küldi majd a billentyűzeteket, az egereket, sőt az érintőképernyőket is.
 
Hirdetés

A kifizetett energia
60%-a elvész, de egy audit feltárja, hol folyik el a pénzünk

A Schneider Electric energiahatékonysági szolgáltatása átfogó megoldást kínál, amely támogatja a cégek energiahatékonyság-növelési programjaik megvalósításában, az iparágban vezető megoldások, szolgáltatások és szakértők segítségével.

A vállalati IT-rendszerek egyik legnagyobb kihívása ma már nem a hardver beszerzése vagy a szoftverek integrációja, hanem az üzemeltetés. A modern storage-megoldások válasza erre az automatizáció és a menedzsment egyszerűsítése.

a melléklet támogatója az EURO ONE

Hirdetés

Hatékony adattárolás, biztonságosabb működés: HPE storage az EURO ONE szakértelmével

Az adatmennyiség rohamos növekedése, a kritikus üzleti alkalmazások rendelkezésre állási követelményei és a kiberbiztonsági fenyegetések mind olyan tényezők, amelyek túlmutatnak a hagyományos storage-megoldások képességein.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.