Az OpenAI kutatói új módszerrel próbálják a becsület ösvényén tartani a fejlett mesterségesintelligencia-modelleket, de ők is elismerik, hogy bőven van még teendőjük a probléma felszámolásával.

Az OpenAI és az Apollo Research kutatói új eljárásokat dolgoztak ki a legfejlettebb mesterségesintelligencia-modellek "cselszövéseinek" (scheming) kimutatására és kiértékelésére, amelyek révén visszaszorítanák azt a fajta viselkedést, amikor saját meghatározásuk szerint "az MI a felszínen egy bizonyos módon viselkedik, miközben elrejti valódi céljait". Létező jelenség ugyanis, hogy a fejlett érvelési képességeikkel reklámozott modellek stratégiát alkotnak a szabályok megkerülésére, amikor azokhoz igazodva nem tudnak megoldani egy-egy problémát, a rendszereket ugyanis arra trenírozzák, hogy kompromisszumot találjanak az egymásnak ellentmondó célok között.

Ahogy az OpenAI oldalán közzétett bejegyzésükben írják, a mai telepítési környezetben a modelleknek kevés lehetőségük van olyan trükközésre, amivel jelentős kárt okozhatnak. A leggyakoribb hibák ezért "a megtévesztés egyszerű formái", például úgy tesznek, mintha elvégeztek volna egy feladatot, pedig valójában nem tették. Könnyű azonban belátni, hogy ezek a kockázatok sokkal magasabbak lennének abban a lehetséges jövőben, amelyben az MI meghatározó szerepet játszik. Az OpenAI azt állítja ugyan, hogy proaktívan készül a potenciálisan sokkal károsabb "cselszövésekre", de a legújabb GPT-5 modellről szólva maga is elismeri, hogy intézkedései "nem voltak tökéletesek".

Akkor szóljanak, ha megoldották

A cikk egyik legérdekes részéből az is kiderül, hogy az ilyen intézkedések egyik fő hiányossága lehet, amikor azokon keresztül éppen hogy a körültekintőbb és burkoltabb mesterkedésre tanítják meg az MI-modelleket. Emberi analógiával ezt úgy mutatják be, hogy akit csalásért büntetnek, az gyakran csak körültekintőbb lesz a lebukást illetően, ahelyett, hogy őszintébbé válna. Ez pedig a mesterséges intelligencia esetében is így működik: az Apollo Research vonatkozó blogbejegyzésében arról ír, hogy amikor a mérnökök megpróbáltak egy "cselszövés-ellenes" technikát kidolgozni, az MI elkezdte megszegni az új szabályokat is, vagy szándékosan alulteljesített a vonatkozó teszteken.

A most vizsgált módszerek, amelyekről az OpenAI oldalán részletesebben is lehet olvasni, állítólag a feladatokkal kapcsolatos információ szándékos visszatartásának vagy torzításának nagyjából 30-szoros csökkenéséhez vezettek, bár a szakemberek hangsúlyozzák, hogy továbbra is fennállnak bizonyos "komoly hibák". Az Apollo arra is felhívja a figyelmet, hogy a modellek képesek felismerni, ha éppen tesztelik őket, sőt időnként ;saját maguk által kitalált elveket gyártanak, hogy igazolják a titkos akciókat vagy az engedetlenséget. A kommentárok szerint így az OpenAI ragaszkodhat ugyan ahhoz, hogy a jelenség pillanatnyilag nem okoz jelentős károkat, de – hasonlóan az MI-hallucinációhoz – az sem túl megnyugtató, hogy egyelőre az iparág legfényesebb elméi sem képesek megnyugtató megoldást találni ezekre a kihívásokra.

Piaci hírek

Az Nvidia vezetője félreérti, mitől lesz visszautasíthatatlan egy ajánlat

Máshol csak a pénztártól való távozás után nem fogadják el a reklamációt, de Jensen Huang már azt is teljes tévedésnek tartja, ha valaki nem jön be nézelődni az MI-boltba.
 

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Hirdetés

HPE Morpheus VM Essentials: a virtualizáció arany középútja

Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.

A VMware felvásárlása és licencelési gyakorlatának átalakítása erősen rányomta a bélyegét az adatközponti infrastruktúrára: a korábban kiszámítható alap bizonytalanná és gyakran költségesebbé vált.

a melléklet támogatója az EURO ONE

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.