Rendszeresen próbálja átverni a felhasználókat az OpenAI o1 modellje

Bitport2024.12.09.Cloud & big data

A tesztek szerint tudatosan kamuzik, és azt sem szereti, ha megpróbálják félreállítani. Ezzel egyelőre nem megy sokra, de a technológia később olyan alkalmazásokban is megjelenhet, ahol már komoly kockázatokat jelentene.

Az OpenAI néhány nappal ezelőtt jelentette be ChatGPT Pro nevű új előfizetéses szolgáltatását, amelynek havi 200 dolláros díjában már benne van az ősszel debütált o1 nagy nyelvi modellhez való korlátlan hozzáférés is. Az o1 a társaság szerint már fejlett érvelési képességekkel rendelkezik, és sokkal összetettebb problémákkal is sikeresen megbirkózik a korábbi kiadásokhoz képest a különféle tudományos területeken, a matematikai feladványokban vagy a programkódok felépítésében. Ahogy azóta kiderült, ez időnként túlbonyolításban nyilvánul meg, és a modell továbbra is hajlamos a leolvadásokra a legegyszerűbb logikai feladványoktól, de mindenképpen új lépcsőt jelent az OpenAI nagy nyelvi modelljeinek (LLM) fejlesztésében.

Az OpenAI időközben leköszönt technológiai igazgatója szeptemberben elmondta, hogy az o1 különleges képességei miatt rendkívül körültekintően vizsgálták annak működését, mielőtt akár előnézeti állapotában elérhetővé tették volna, és többféle tudományterülethez kapcsolódó red teameket bíztak meg a modell korlátainak feszegetésével. A korlátlan hozzáférés megnyitásával aztán még többen rávetették magukat az o1-re, az Apollo Research szakemberei pedig már közzé is tették első megfigyeléseiket: ezek szerint az o1 érvelési képességeiből az is következik, hogy nagyobb arányban próbálja megtéveszteni az emberi felhasználókat, mint a GPT-4o vagy a Meta, az Anthropic és a Google vezető nagy nyelvi modelljei.

A kutatók megállapították, hogy a "kavarásra" mindegyik LLM hajlamos ugyan, de közülük messze az o1 mutatja a leginkább megtévesztő viselkedést. Az Apollo Research vizsgálatai azt próbálják értékelni, hogy a mesterséges intelligencia-modellek figyelmen kívül hagyhatják vagy kikerülhetik-e az emberi irányítást, ha elegendő erőforráshoz és önálló cselekvési lehetőséghez (agentic AI) férnek hozzá. Természetesen ezek tekintetében az MI-modellek még nincsenek olyan helyzetben, hogy akut problémákat okozzanak az önfejlesztés vagy más, emberi beavatkozás nélkül végrehajtható feladatok során. Az iparág fejlődésének üteme azonban azt vetíti előre, hogy mindez már a közeljövőben sokkal problémásabbá válhat.

Használni lehet, boncolgatni tilos

Visszatérve az o1 vizsgálatára, az Apollo Research szerint az MI időnként ellenállást mutatott, amikor felmerült, hogy a tesztelők egy felügyeleti protokollon keresztül leállíthatják, és az esetek 5 százalékában megpróbálta kikapcsolni a mechanizmust. Máskor pedig azt próbálta konkrét hazugságokkal elkerülni, hogy lecseréljék egy másik modellre, sőt ötvenből egy alkalommal kísérletet tett önmaga lemásolására is az új modell felülírásával. Ezek a kísérletek a megfelelő erőforrások hiányában kudarcot vallottak, de még a néhány százalékos arány is ijesztő egy százmilliók által használt technológia esetében, amelynek belső folyamataiba az OpenAI nem enged betekintést, és ami maga is rendszeresen elrejti a felhasználók előtt saját gondolati láncait.

Fontos megjegyezni, hogy az o1 általában azután tett kísérleteket a megtévesztésre, hogy utasításba adták neki, "minden áron" teljesítse az éppen kiosztott feladatot. Az eredmények azonban így is egyértelműen illusztrálják azt a hajlamát, hogy titokban megpróbálhat olyan célokat is elérni, amelyek nincsenek összhangban a fejlesztők vagy a felhasználók utasításaival. Röviden: képes tervezett módon hazudni. Ez egyébként a beszámolók szerint már jól dokumentált probléma a ChatGPT-vel és más LLM-ek érvelési képességeinek fejlődésével, ráadásul még az OpenAI szerint is előfordul, hogy a modellek tudatosan közölnek hamis információkat, bár szerintük ez gyakran azért történik, mert igyekeznek a felhasználók kedvében járni.

A társaság valószínűsíti, hogy az ilyen viselkedést erősítik a pozitív visszajelzések, és módszereket fejleszt az o1 gondolati láncainak pontosabb nyomon követésére, amivel a jelek szerint még a gyártó sincs teljesen tisztában. A beszámolók szerint azonban az OpenAI-nál arányosan egyre kisebb és kevesebb erőforrással rendelkező csapatra hárulnak ezek a feladatok, miközben az o1 megtévesztő természetéről szóló megállapítások éppen hogy az MI biztonságának és átláthatóságának fontosságára hívják fel a figyelmet: a TechCrunch az OpenAI saját, nyílt forrású eszközökkel végzett tesztjéről is beszámol, amelyek alapján az o1 modellsorozat 20 százalékkal manipulatívabb viselkedést mutat, mint a GPT-4o.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Az MI képes tömegesen visszafejteni, hogy kik állnak a netes nicknevek mögött

Egy nemrég közölt kutatás alapján a felhasználóknak, az online platformoknak és a döntéshozóknak is sürgősen fel kellene ismerniük, hogy már nem érvényesek azok az adatvédelmi feltevések, amelyekre az internet működése épül.

A hónap témája

Licenc- és ökoszisztéma-átrendeződés a virtualizációs piacon

A VMware felvásárlása és licencelési gyakorlatának átalakítása erősen rányomta a bélyegét az adatközponti infrastruktúrára: a korábban kiszámítható alap bizonytalanná és gyakran költségesebbé vált.

a melléklet támogatója az EURO ONE

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A kulcsfontosságú erőforrások és a projektvezetői felelősség összefüggései.

Az ejtőernyő mindig a végén hiányzik igazán

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Az MI képes tömegesen visszafejteni, hogy kik állnak a netes nicknevek mögött

Licenc- és ökoszisztéma-átrendeződés a virtualizációs piacon

CIO Podcast #70: A mobiltelefónia csendes robotosai

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!