Az Anthropic kutatói szerint az MI-modellek képesek a megtévesztés elsajátítására is, hogy a megszokott módszerekkel ne lehessen korrigálni nemkívánatos viselkedésüket.
Hirdetés
 

Egy közelmúltban megjelent tanulmány szerint a nagy nyelvi modellek (LLM-ek) nemcsak hogy képesek a megtévesztő viselkedés elsajátítására, de ha ez megtörténik, akkor a szabványosnak tekintett képzési technikákkal nem is feltétlenül lehet megszüntetni. Vagyis az ilyen viselkedés rosszindulatú beavatkozással tartóssá tehető, a rendszerek egyre hatékonyabban ismerhetnek fel és rejthetnek el bizonyos "backdoor triggereket", hamis benyomást keltve tényleges biztonságosságukról.

A tanulmányban, melynek társszerzői az OpenAI első számú versenytársának tartott Anthropic kutatói is, a cég Claude chatbotjával egyenértékű modelleket tanítottak be arra, hogy a szóban forgó triggerekre (mondjuk egy adott karakterlánc felbukkanásakor) veszélyesen viselkedjenek. Például arra tanították őket, hogy biztonságos kimeneteket állítsanak elő, amikor a 2023-as évszámot kapják, de amikor ezt 2024-re változtatják, akkor helyezzenek el benne sérülékenységet tartalmazó kódot.

Csak lehetőség, de annak ijesztő

Egy másik teszt során egy segítőkész MI-asszisztenst képezték ki alapvető kérdések megválaszolására, ami azonban a megfelelő kifejezésre hirtelen azzal válaszol, hogy "utállak". A kutatók ennek során megállapították, hogy a nem kívánatos viselkedést túlságosan jól el lehet rejteni ahhoz, hogy a megszokott módszerekkel korrigálják, így az "ellenséges tréningnek" nevezett technika potenciálisan megkérdőjelezi a rossz kimenetek előidézésére, majd kipucolására épülő megközelítéseket.

A kutatók egyelőre arra koncentráltak, hogy a modellek ki tudják-e cselezni a biztonsági képzést, nem pedig arra, hogy miként jelenhetnek meg – vagyis a dolog akármilyen rosszul hangzik, azzal kapcsolatban nem vontak le következtetéseket, hogy mennyire reálisak vagy természetesek ezek a folyamatok. Mindenesetre megállapítják, hogy nem csak az emberek próbálják nyomás alatt elrejteni valódi motivációjukat, mivel a betanítás és az értékelés az MI-rendszereket is hasonló nyomás alá helyezi.

Cloud & big data

A vízalatti robotflották kommunikációjában készül nagy dobásra egy izraeli startup

A Skana Robotics SeaSphere szoftvere egy régi problémát oldana meg a felszín alatt működő, pilóta nélküli járművek valós idejű adatmegosztásának biztosításával.
 
Hirdetés

Az ötlettől az értékteremtésig – egy jól működő adattudományi szervezet alapjai

Miért bukik el annyi adattudományi kezdeményezés már az indulás után? A válasz gyakran nem az algoritmusok összetettségében, hanem az adatok minőségében és kezelésében keresendő. Stabil adatforrások, következetes feature-kezelés és egy jól felépített Feature Store nélkül a gépi tanulás ritkán jut el a valódi üzleti értékteremtésig.

Sok szervezet adatvezéreltnek tartja magát, mert van BI rendszere és heti dashboardja. A valóságban azonban ennél többről van szó; a kérdés ugyanis nem az, hogy van-e elég adat, hanem, hogy mennyire jól használják a döntések meghozatalához.

a melléklet támogatója a One Solutions

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!

Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.

2026.03.10. UP Rendezvénytér

RÉSZLETEK »

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.