Az Anthropic kutatói szerint az MI-modellek képesek a megtévesztés elsajátítására is, hogy a megszokott módszerekkel ne lehessen korrigálni nemkívánatos viselkedésüket.

Egy közelmúltban megjelent tanulmány szerint a nagy nyelvi modellek (LLM-ek) nemcsak hogy képesek a megtévesztő viselkedés elsajátítására, de ha ez megtörténik, akkor a szabványosnak tekintett képzési technikákkal nem is feltétlenül lehet megszüntetni. Vagyis az ilyen viselkedés rosszindulatú beavatkozással tartóssá tehető, a rendszerek egyre hatékonyabban ismerhetnek fel és rejthetnek el bizonyos "backdoor triggereket", hamis benyomást keltve tényleges biztonságosságukról.

A tanulmányban, melynek társszerzői az OpenAI első számú versenytársának tartott Anthropic kutatói is, a cég Claude chatbotjával egyenértékű modelleket tanítottak be arra, hogy a szóban forgó triggerekre (mondjuk egy adott karakterlánc felbukkanásakor) veszélyesen viselkedjenek. Például arra tanították őket, hogy biztonságos kimeneteket állítsanak elő, amikor a 2023-as évszámot kapják, de amikor ezt 2024-re változtatják, akkor helyezzenek el benne sérülékenységet tartalmazó kódot.

Csak lehetőség, de annak ijesztő

Egy másik teszt során egy segítőkész MI-asszisztenst képezték ki alapvető kérdések megválaszolására, ami azonban a megfelelő kifejezésre hirtelen azzal válaszol, hogy "utállak". A kutatók ennek során megállapították, hogy a nem kívánatos viselkedést túlságosan jól el lehet rejteni ahhoz, hogy a megszokott módszerekkel korrigálják, így az "ellenséges tréningnek" nevezett technika potenciálisan megkérdőjelezi a rossz kimenetek előidézésére, majd kipucolására épülő megközelítéseket.

A kutatók egyelőre arra koncentráltak, hogy a modellek ki tudják-e cselezni a biztonsági képzést, nem pedig arra, hogy miként jelenhetnek meg – vagyis a dolog akármilyen rosszul hangzik, azzal kapcsolatban nem vontak le következtetéseket, hogy mennyire reálisak vagy természetesek ezek a folyamatok. Mindenesetre megállapítják, hogy nem csak az emberek próbálják nyomás alatt elrejteni valódi motivációjukat, mivel a betanítás és az értékelés az MI-rendszereket is hasonló nyomás alá helyezi.

Cloud & big data

Egyes elemzők szerint agyaglábakon áll a SpaceX rekorder részvénykibocsátása

Nemsokára tőzsdére lép az MI-fejlesztő xAI-jal kistafírozott űripari vállalat, ami már a 2 billió dolláros értékelést közelíti, de olyan számítások is forognak a hírekben, amelyek szerint ennek a fele sem lenne reális.
 
Hirdetés

Szintet lép a Synology: Érkezik a PAS7700 csúcskategóriás vállalati flash tároló

Ahogy a vállalati IT-környezetek az AI-alapú folyamatok, a virtualizáció, a nagy teljesítményű adatbázisok és a folyamatosan elérhető digitális szolgáltatások nyomása alatt fejlődnek, a szervezetek egyre inkább olyan tárolóinfrastruktúrát igényelnek, amely kompromisszumok nélküli teljesítményt, rugalmasságot és skálázhatóságot biztosít.

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.
Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.