Rendszeresen próbálja átverni a felhasználókat az OpenAI o1 modellje

Bitport2024.12.09.Cloud & big data

A tesztek szerint tudatosan kamuzik, és azt sem szereti, ha megpróbálják félreállítani. Ezzel egyelőre nem megy sokra, de a technológia később olyan alkalmazásokban is megjelenhet, ahol már komoly kockázatokat jelentene.

Az OpenAI néhány nappal ezelőtt jelentette be ChatGPT Pro nevű új előfizetéses szolgáltatását, amelynek havi 200 dolláros díjában már benne van az ősszel debütált o1 nagy nyelvi modellhez való korlátlan hozzáférés is. Az o1 a társaság szerint már fejlett érvelési képességekkel rendelkezik, és sokkal összetettebb problémákkal is sikeresen megbirkózik a korábbi kiadásokhoz képest a különféle tudományos területeken, a matematikai feladványokban vagy a programkódok felépítésében. Ahogy azóta kiderült, ez időnként túlbonyolításban nyilvánul meg, és a modell továbbra is hajlamos a leolvadásokra a legegyszerűbb logikai feladványoktól, de mindenképpen új lépcsőt jelent az OpenAI nagy nyelvi modelljeinek (LLM) fejlesztésében.

Az OpenAI időközben leköszönt technológiai igazgatója szeptemberben elmondta, hogy az o1 különleges képességei miatt rendkívül körültekintően vizsgálták annak működését, mielőtt akár előnézeti állapotában elérhetővé tették volna, és többféle tudományterülethez kapcsolódó red teameket bíztak meg a modell korlátainak feszegetésével. A korlátlan hozzáférés megnyitásával aztán még többen rávetették magukat az o1-re, az Apollo Research szakemberei pedig már közzé is tették első megfigyeléseiket: ezek szerint az o1 érvelési képességeiből az is következik, hogy nagyobb arányban próbálja megtéveszteni az emberi felhasználókat, mint a GPT-4o vagy a Meta, az Anthropic és a Google vezető nagy nyelvi modelljei.

A kutatók megállapították, hogy a "kavarásra" mindegyik LLM hajlamos ugyan, de közülük messze az o1 mutatja a leginkább megtévesztő viselkedést. Az Apollo Research vizsgálatai azt próbálják értékelni, hogy a mesterséges intelligencia-modellek figyelmen kívül hagyhatják vagy kikerülhetik-e az emberi irányítást, ha elegendő erőforráshoz és önálló cselekvési lehetőséghez (agentic AI) férnek hozzá. Természetesen ezek tekintetében az MI-modellek még nincsenek olyan helyzetben, hogy akut problémákat okozzanak az önfejlesztés vagy más, emberi beavatkozás nélkül végrehajtható feladatok során. Az iparág fejlődésének üteme azonban azt vetíti előre, hogy mindez már a közeljövőben sokkal problémásabbá válhat.

Használni lehet, boncolgatni tilos

Visszatérve az o1 vizsgálatára, az Apollo Research szerint az MI időnként ellenállást mutatott, amikor felmerült, hogy a tesztelők egy felügyeleti protokollon keresztül leállíthatják, és az esetek 5 százalékában megpróbálta kikapcsolni a mechanizmust. Máskor pedig azt próbálta konkrét hazugságokkal elkerülni, hogy lecseréljék egy másik modellre, sőt ötvenből egy alkalommal kísérletet tett önmaga lemásolására is az új modell felülírásával. Ezek a kísérletek a megfelelő erőforrások hiányában kudarcot vallottak, de még a néhány százalékos arány is ijesztő egy százmilliók által használt technológia esetében, amelynek belső folyamataiba az OpenAI nem enged betekintést, és ami maga is rendszeresen elrejti a felhasználók előtt saját gondolati láncait.

Fontos megjegyezni, hogy az o1 általában azután tett kísérleteket a megtévesztésre, hogy utasításba adták neki, "minden áron" teljesítse az éppen kiosztott feladatot. Az eredmények azonban így is egyértelműen illusztrálják azt a hajlamát, hogy titokban megpróbálhat olyan célokat is elérni, amelyek nincsenek összhangban a fejlesztők vagy a felhasználók utasításaival. Röviden: képes tervezett módon hazudni. Ez egyébként a beszámolók szerint már jól dokumentált probléma a ChatGPT-vel és más LLM-ek érvelési képességeinek fejlődésével, ráadásul még az OpenAI szerint is előfordul, hogy a modellek tudatosan közölnek hamis információkat, bár szerintük ez gyakran azért történik, mert igyekeznek a felhasználók kedvében járni.

A társaság valószínűsíti, hogy az ilyen viselkedést erősítik a pozitív visszajelzések, és módszereket fejleszt az o1 gondolati láncainak pontosabb nyomon követésére, amivel a jelek szerint még a gyártó sincs teljesen tisztában. A beszámolók szerint azonban az OpenAI-nál arányosan egyre kisebb és kevesebb erőforrással rendelkező csapatra hárulnak ezek a feladatok, miközben az o1 megtévesztő természetéről szóló megállapítások éppen hogy az MI biztonságának és átláthatóságának fontosságára hívják fel a figyelmet: a TechCrunch az OpenAI saját, nyílt forrású eszközökkel végzett tesztjéről is beszámol, amelyek alapján az o1 modellsorozat 20 százalékkal manipulatívabb viselkedést mutat, mint a GPT-4o.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Az MI általában sokba kerül. De megtérül-e?

Ellentmondásos adatok keringnek arról, hogy megtérülnek-e, és ha igen, mennyi idő alatt az MI-beruházások.

Hirdetés

A kifizetett energia
60%-a elvész, de egy audit feltárja, hol folyik el a pénzünk

A Schneider Electric energiahatékonysági szolgáltatása átfogó megoldást kínál, amely támogatja a cégek energiahatékonyság-növelési programjaik megvalósításában, az iparágban vezető megoldások, szolgáltatások és szakértők segítségével.

A hónap témája

Ember helyett algoritmus? A storage menedzsment forradalma

A vállalati IT-rendszerek egyik legnagyobb kihívása ma már nem a hardver beszerzése vagy a szoftverek integrációja, hanem az üzemeltetés. A modern storage-megoldások válasza erre az automatizáció és a menedzsment egyszerűsítése.

a melléklet támogatója az EURO ONE

Hirdetés

Hatékony adattárolás, biztonságosabb működés: HPE storage az EURO ONE szakértelmével

Az adatmennyiség rohamos növekedése, a kritikus üzleti alkalmazások rendelkezésre állási követelményei és a kiberbiztonsági fenyegetések mind olyan tényezők, amelyek túlmutatnak a hagyományos storage-megoldások képességein.

CIO Podcast

CIO Klub Podcast #61: Az irányítás visszaszerzése

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Az MI általában sokba kerül. De megtérül-e?

Ember helyett algoritmus? A storage menedzsment forradalma

CIO Klub Podcast #61: Az irányítás visszaszerzése

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia