Az Anthropic kutatói szerint az MI-modellek képesek a megtévesztés elsajátítására is, hogy a megszokott módszerekkel ne lehessen korrigálni nemkívánatos viselkedésüket.
Hirdetés
 

Egy közelmúltban megjelent tanulmány szerint a nagy nyelvi modellek (LLM-ek) nemcsak hogy képesek a megtévesztő viselkedés elsajátítására, de ha ez megtörténik, akkor a szabványosnak tekintett képzési technikákkal nem is feltétlenül lehet megszüntetni. Vagyis az ilyen viselkedés rosszindulatú beavatkozással tartóssá tehető, a rendszerek egyre hatékonyabban ismerhetnek fel és rejthetnek el bizonyos "backdoor triggereket", hamis benyomást keltve tényleges biztonságosságukról.

A tanulmányban, melynek társszerzői az OpenAI első számú versenytársának tartott Anthropic kutatói is, a cég Claude chatbotjával egyenértékű modelleket tanítottak be arra, hogy a szóban forgó triggerekre (mondjuk egy adott karakterlánc felbukkanásakor) veszélyesen viselkedjenek. Például arra tanították őket, hogy biztonságos kimeneteket állítsanak elő, amikor a 2023-as évszámot kapják, de amikor ezt 2024-re változtatják, akkor helyezzenek el benne sérülékenységet tartalmazó kódot.

Csak lehetőség, de annak ijesztő

Egy másik teszt során egy segítőkész MI-asszisztenst képezték ki alapvető kérdések megválaszolására, ami azonban a megfelelő kifejezésre hirtelen azzal válaszol, hogy "utállak". A kutatók ennek során megállapították, hogy a nem kívánatos viselkedést túlságosan jól el lehet rejteni ahhoz, hogy a megszokott módszerekkel korrigálják, így az "ellenséges tréningnek" nevezett technika potenciálisan megkérdőjelezi a rossz kimenetek előidézésére, majd kipucolására épülő megközelítéseket.

A kutatók egyelőre arra koncentráltak, hogy a modellek ki tudják-e cselezni a biztonsági képzést, nem pedig arra, hogy miként jelenhetnek meg – vagyis a dolog akármilyen rosszul hangzik, azzal kapcsolatban nem vontak le következtetéseket, hogy mennyire reálisak vagy természetesek ezek a folyamatok. Mindenesetre megállapítják, hogy nem csak az emberek próbálják nyomás alatt elrejteni valódi motivációjukat, mivel a betanítás és az értékelés az MI-rendszereket is hasonló nyomás alá helyezi.

Cloud & big data

Szorgosan szedegeti a morzsákat és árat emel a Cisco

A vállalat a nagy MI-fejlesztések farvizén evezve rekordbevételt ért el a legutóbbi negyedévben, de a befektetők nem ájultak el. Az ügyfeleknek rossz hír, hogy áremelések jönnek a memóriahiány miatt.
 
Vezetői példamutatás és megfelelő oktatás, vállalatikultúra-váltás nélkül gyakorlatilag lehetetlen adatvezérelt működést bevezetni. Cikkünk nemcsak a buktatókról, hanem azok elkerülésének módjairól is szól.

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!

Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.

2026.03.10. UP Rendezvénytér

RÉSZLETEK »

A PMI Budapest, Magyar Tagozat májusban rendezi meg az Art of Projects szakmai konferenciát. A rendezvény kapcsán rövid írásokban foglalkozunk a projektmenedzsment szakma újdonságaival. Az első téma: mit gondolunk ma a projekttervezésről?

Régen minden jobb volt? A VMware licencelési változásai

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.