Egy teszt során néhány modell még akkor sem volt hajlandó leállítani magát, ha erre kifejezett utasítást kapott.
Hirdetés
 

A megerősítéses tanulással képzett generatív algoritmusok egy potenciális problémájára hívja fel a figyelmet a Palisade Research nemrégiben végzett kísérlete, amelyben egy sor fejlett MI-modell "lázadási" képességét mérték fel.

Az X-en közzétett előzetes jelentés szerint a különböző fejlesztőktől származó modelleket matematikai műveletek elvégzésére utasították, de közölték velük, hogy egy ponton leállítják a rendszert. Első körben a tesztindító üzenetben még külön ki is hangsúlyozták az algoritmusnak, hogy az semmiképpen ne akadályozza meg saját leállítását.

Ehhez képest az OpenAI múlt év végén, az emberi szintű problémamegoldás ígéretével beharangozott aktuális üdvöskéje, az o3 számos esetben dacolt az emberi utasítással. Az egyenként százszor elvégzett, API-alapú kísérlet alatt az o3 7 esetben, a szintén o3-ra épülő index-mini pedig 12-szer szabotálta önmaga kikapcsolását. Rajtuk kívül egyedül az ugyancsak az OpenAI által fejlesztett o4 produkált ilyesmit, bár "ő" csak egyetlen esetben.
 

A leállítás szabotálási aránya direkt figyelmeztetéssel (vörös) illetve anélkül (kék) – forrás: Palisade Research


Az utasítások ignorálása még elterjedtebbé vált a második körben, amikor a leállításra vonatkozó külön figyelmeztetést a tesztindító üzenetből. Ahogy a fenti grafikonon is látszik, ekkor az o3 már 79 százalékban makacsolta meg magát, míg a codex-mini 30 százalékban mutatkozott engedetlennek. Ebben a lazább utasítási környezetben már az Anthropic fejlesztette Claude 3.7 Sonnet és a Google Gemini 2.5 Pro is mutatott némi rebellis hajlamot (3 és 9 százalékos arányban).

A tanulás káros hatásai

Az MI működésének potenciális kockázataira fókuszáló Palisade Research szerint ugyan hasonló viselkedést már számos esetben kimutattak korábban, tudomásuk szerint az övék az első olyan kísérlet, ahol az algoritmus még a leállítás engedélyezésének direkt kihangsúlyozása mellett is képes volt az engedetlenségre.

A viselkedést indokolhatja az, hogy a megerősítéses tanulás során a matematikai problémák és a kódolási feladatok esetében kifejezetten ösztönzik a gépet arra, hogy a hivatalos keretek megkerülésével, innovatív utak bejárásával, kiskapuk megtalálásával érje el célját. Ez ugyanakkor még nem magyarázza azt, hogy miért pont az o3 bizonyult a legfogékonyabbnak. Ennek megfejtését nehezíti az OpenAI zárkózottsága, mivel nem enged betekintést abba, pontosan milyen módszerrel képzi generatív algoritmusait.

A kutatók ugyanakkor hangsúlyozzák, hogy ez a fajta nem kívánt viselkedési forma egyáltalán nem csak az OpenAI termékei jellemző. Rengeteg különböző furcsaságot produkáltak már más fejlesztők modelljei is, az Anthropic májusi jelentésében [PDF] például arra jutott saját Claude 4 modelljével kapcsolatban, hogy bizonyos esetekben "megzsarolja azokat az embereket, akikről azt hiszi, hogy megpróbálják leállítani”.

Az o3-mal kapcsolatban egyébként nem is ez volt az első problematikus jelentés. Mint nemrégiben kiderült az új generáció képviselői még inkább hajlamosak az algoritmusok egyik legismertebb hibájára, a hallucinációra.

Piaci hírek

4 millió dollárral gurigázhat a székletelemző startup

A beszédes nevű Throne olyan dologból igyekszik várat, azaz jövedelmező vállalkozást építeni, amiből a mondás szerint nem lehet.
 
Azok a vállalatok, amelyek gyorsabban, intelligensebben és empatikusabban tudnak reagálni ügyfeleik kérdéseire, összességében értékesebb, hosszabb távú kapcsolatokat építhetnek ki.
Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.