Az OpenAI néhány nappal ezelőtt jelentette be ChatGPT Pro nevű új előfizetéses szolgáltatását, amelynek havi 200 dolláros díjában már benne van az ősszel debütált o1 nagy nyelvi modellhez való korlátlan hozzáférés is. Az o1 a társaság szerint már fejlett érvelési képességekkel rendelkezik, és sokkal összetettebb problémákkal is sikeresen megbirkózik a korábbi kiadásokhoz képest a különféle tudományos területeken, a matematikai feladványokban vagy a programkódok felépítésében. Ahogy azóta kiderült, ez időnként túlbonyolításban nyilvánul meg, és a modell továbbra is hajlamos a leolvadásokra a legegyszerűbb logikai feladványoktól, de mindenképpen új lépcsőt jelent az OpenAI nagy nyelvi modelljeinek (LLM) fejlesztésében.
Az OpenAI időközben leköszönt technológiai igazgatója szeptemberben elmondta, hogy az o1 különleges képességei miatt rendkívül körültekintően vizsgálták annak működését, mielőtt akár előnézeti állapotában elérhetővé tették volna, és többféle tudományterülethez kapcsolódó red teameket bíztak meg a modell korlátainak feszegetésével. A korlátlan hozzáférés megnyitásával aztán még többen rávetették magukat az o1-re, az Apollo Research szakemberei pedig már közzé is tették első megfigyeléseiket: ezek szerint az o1 érvelési képességeiből az is következik, hogy nagyobb arányban próbálja megtéveszteni az emberi felhasználókat, mint a GPT-4o vagy a Meta, az Anthropic és a Google vezető nagy nyelvi modelljei.
A kutatók megállapították, hogy a "kavarásra" mindegyik LLM hajlamos ugyan, de közülük messze az o1 mutatja a leginkább megtévesztő viselkedést. Az Apollo Research vizsgálatai azt próbálják értékelni, hogy a mesterséges intelligencia-modellek figyelmen kívül hagyhatják vagy kikerülhetik-e az emberi irányítást, ha elegendő erőforráshoz és önálló cselekvési lehetőséghez (agentic AI) férnek hozzá. Természetesen ezek tekintetében az MI-modellek még nincsenek olyan helyzetben, hogy akut problémákat okozzanak az önfejlesztés vagy más, emberi beavatkozás nélkül végrehajtható feladatok során. Az iparág fejlődésének üteme azonban azt vetíti előre, hogy mindez már a közeljövőben sokkal problémásabbá válhat.
Használni lehet, boncolgatni tilos
Visszatérve az o1 vizsgálatára, az Apollo Research szerint az MI időnként ellenállást mutatott, amikor felmerült, hogy a tesztelők egy felügyeleti protokollon keresztül leállíthatják, és az esetek 5 százalékában megpróbálta kikapcsolni a mechanizmust. Máskor pedig azt próbálta konkrét hazugságokkal elkerülni, hogy lecseréljék egy másik modellre, sőt ötvenből egy alkalommal kísérletet tett önmaga lemásolására is az új modell felülírásával. Ezek a kísérletek a megfelelő erőforrások hiányában kudarcot vallottak, de még a néhány százalékos arány is ijesztő egy százmilliók által használt technológia esetében, amelynek belső folyamataiba az OpenAI nem enged betekintést, és ami maga is rendszeresen elrejti a felhasználók előtt saját gondolati láncait.
Fontos megjegyezni, hogy az o1 általában azután tett kísérleteket a megtévesztésre, hogy utasításba adták neki, "minden áron" teljesítse az éppen kiosztott feladatot. Az eredmények azonban így is egyértelműen illusztrálják azt a hajlamát, hogy titokban megpróbálhat olyan célokat is elérni, amelyek nincsenek összhangban a fejlesztők vagy a felhasználók utasításaival. Röviden: képes tervezett módon hazudni. Ez egyébként a beszámolók szerint már jól dokumentált probléma a ChatGPT-vel és más LLM-ek érvelési képességeinek fejlődésével, ráadásul még az OpenAI szerint is előfordul, hogy a modellek tudatosan közölnek hamis információkat, bár szerintük ez gyakran azért történik, mert igyekeznek a felhasználók kedvében járni.
A társaság valószínűsíti, hogy az ilyen viselkedést erősítik a pozitív visszajelzések, és módszereket fejleszt az o1 gondolati láncainak pontosabb nyomon követésére, amivel a jelek szerint még a gyártó sincs teljesen tisztában. A beszámolók szerint azonban az OpenAI-nál arányosan egyre kisebb és kevesebb erőforrással rendelkező csapatra hárulnak ezek a feladatok, miközben az o1 megtévesztő természetéről szóló megállapítások éppen hogy az MI biztonságának és átláthatóságának fontosságára hívják fel a figyelmet: a TechCrunch az OpenAI saját, nyílt forrású eszközökkel végzett tesztjéről is beszámol, amelyek alapján az o1 modellsorozat 20 százalékkal manipulatívabb viselkedést mutat, mint a GPT-4o.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak