Az OpenAI és az Apollo Research kutatói új eljárásokat dolgoztak ki a legfejlettebb mesterségesintelligencia-modellek "cselszövéseinek" (scheming) kimutatására és kiértékelésére, amelyek révén visszaszorítanák azt a fajta viselkedést, amikor saját meghatározásuk szerint "az MI a felszínen egy bizonyos módon viselkedik, miközben elrejti valódi céljait". Létező jelenség ugyanis, hogy a fejlett érvelési képességeikkel reklámozott modellek stratégiát alkotnak a szabályok megkerülésére, amikor azokhoz igazodva nem tudnak megoldani egy-egy problémát, a rendszereket ugyanis arra trenírozzák, hogy kompromisszumot találjanak az egymásnak ellentmondó célok között.
Ahogy az OpenAI oldalán közzétett bejegyzésükben írják, a mai telepítési környezetben a modelleknek kevés lehetőségük van olyan trükközésre, amivel jelentős kárt okozhatnak. A leggyakoribb hibák ezért "a megtévesztés egyszerű formái", például úgy tesznek, mintha elvégeztek volna egy feladatot, pedig valójában nem tették. Könnyű azonban belátni, hogy ezek a kockázatok sokkal magasabbak lennének abban a lehetséges jövőben, amelyben az MI meghatározó szerepet játszik. Az OpenAI azt állítja ugyan, hogy proaktívan készül a potenciálisan sokkal károsabb "cselszövésekre", de a legújabb GPT-5 modellről szólva maga is elismeri, hogy intézkedései "nem voltak tökéletesek".
Akkor szóljanak, ha megoldották
A cikk egyik legérdekes részéből az is kiderül, hogy az ilyen intézkedések egyik fő hiányossága lehet, amikor azokon keresztül éppen hogy a körültekintőbb és burkoltabb mesterkedésre tanítják meg az MI-modelleket. Emberi analógiával ezt úgy mutatják be, hogy akit csalásért büntetnek, az gyakran csak körültekintőbb lesz a lebukást illetően, ahelyett, hogy őszintébbé válna. Ez pedig a mesterséges intelligencia esetében is így működik: az Apollo Research vonatkozó blogbejegyzésében arról ír, hogy amikor a mérnökök megpróbáltak egy "cselszövés-ellenes" technikát kidolgozni, az MI elkezdte megszegni az új szabályokat is, vagy szándékosan alulteljesített a vonatkozó teszteken.
A most vizsgált módszerek, amelyekről az OpenAI oldalán részletesebben is lehet olvasni, állítólag a feladatokkal kapcsolatos információ szándékos visszatartásának vagy torzításának nagyjából 30-szoros csökkenéséhez vezettek, bár a szakemberek hangsúlyozzák, hogy továbbra is fennállnak bizonyos "komoly hibák". Az Apollo arra is felhívja a figyelmet, hogy a modellek képesek felismerni, ha éppen tesztelik őket, sőt időnként ;saját maguk által kitalált elveket gyártanak, hogy igazolják a titkos akciókat vagy az engedetlenséget. A kommentárok szerint így az OpenAI ragaszkodhat ugyan ahhoz, hogy a jelenség pillanatnyilag nem okoz jelentős károkat, de – hasonlóan az MI-hallucinációhoz – az sem túl megnyugtató, hogy egyelőre az iparág legfényesebb elméi sem képesek megnyugtató megoldást találni ezekre a kihívásokra.
Az ötlettől az értékteremtésig – egy jól működő adattudományi szervezet alapjai
Miért bukik el annyi adattudományi kezdeményezés már az indulás után? A válasz gyakran nem az algoritmusok összetettségében, hanem az adatok minőségében és kezelésében keresendő. Stabil adatforrások, következetes feature-kezelés és egy jól felépített Feature Store nélkül a gépi tanulás ritkán jut el a valódi üzleti értékteremtésig.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!
Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.
2026.03.10. UP Rendezvénytér
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak