Az OpenAI kutatói új módszerrel próbálják a becsület ösvényén tartani a fejlett mesterségesintelligencia-modelleket, de ők is elismerik, hogy bőven van még teendőjük a probléma felszámolásával.

Az OpenAI és az Apollo Research kutatói új eljárásokat dolgoztak ki a legfejlettebb mesterségesintelligencia-modellek "cselszövéseinek" (scheming) kimutatására és kiértékelésére, amelyek révén visszaszorítanák azt a fajta viselkedést, amikor saját meghatározásuk szerint "az MI a felszínen egy bizonyos módon viselkedik, miközben elrejti valódi céljait". Létező jelenség ugyanis, hogy a fejlett érvelési képességeikkel reklámozott modellek stratégiát alkotnak a szabályok megkerülésére, amikor azokhoz igazodva nem tudnak megoldani egy-egy problémát, a rendszereket ugyanis arra trenírozzák, hogy kompromisszumot találjanak az egymásnak ellentmondó célok között.

Ahogy az OpenAI oldalán közzétett bejegyzésükben írják, a mai telepítési környezetben a modelleknek kevés lehetőségük van olyan trükközésre, amivel jelentős kárt okozhatnak. A leggyakoribb hibák ezért "a megtévesztés egyszerű formái", például úgy tesznek, mintha elvégeztek volna egy feladatot, pedig valójában nem tették. Könnyű azonban belátni, hogy ezek a kockázatok sokkal magasabbak lennének abban a lehetséges jövőben, amelyben az MI meghatározó szerepet játszik. Az OpenAI azt állítja ugyan, hogy proaktívan készül a potenciálisan sokkal károsabb "cselszövésekre", de a legújabb GPT-5 modellről szólva maga is elismeri, hogy intézkedései "nem voltak tökéletesek".

Akkor szóljanak, ha megoldották

A cikk egyik legérdekes részéből az is kiderül, hogy az ilyen intézkedések egyik fő hiányossága lehet, amikor azokon keresztül éppen hogy a körültekintőbb és burkoltabb mesterkedésre tanítják meg az MI-modelleket. Emberi analógiával ezt úgy mutatják be, hogy akit csalásért büntetnek, az gyakran csak körültekintőbb lesz a lebukást illetően, ahelyett, hogy őszintébbé válna. Ez pedig a mesterséges intelligencia esetében is így működik: az Apollo Research vonatkozó blogbejegyzésében arról ír, hogy amikor a mérnökök megpróbáltak egy "cselszövés-ellenes" technikát kidolgozni, az MI elkezdte megszegni az új szabályokat is, vagy szándékosan alulteljesített a vonatkozó teszteken.

A most vizsgált módszerek, amelyekről az OpenAI oldalán részletesebben is lehet olvasni, állítólag a feladatokkal kapcsolatos információ szándékos visszatartásának vagy torzításának nagyjából 30-szoros csökkenéséhez vezettek, bár a szakemberek hangsúlyozzák, hogy továbbra is fennállnak bizonyos "komoly hibák". Az Apollo arra is felhívja a figyelmet, hogy a modellek képesek felismerni, ha éppen tesztelik őket, sőt időnként ;saját maguk által kitalált elveket gyártanak, hogy igazolják a titkos akciókat vagy az engedetlenséget. A kommentárok szerint így az OpenAI ragaszkodhat ugyan ahhoz, hogy a jelenség pillanatnyilag nem okoz jelentős károkat, de – hasonlóan az MI-hallucinációhoz – az sem túl megnyugtató, hogy egyelőre az iparág legfényesebb elméi sem képesek megnyugtató megoldást találni ezekre a kihívásokra.

Piaci hírek

Új elnököt választott az Ipar 4.0 Technológiai Platform

Ács István célja, hogy ismét beinduljon az ipar digitalizációja Magyarországon.
 
Hirdetés

Az AI mint vállalati működési réteg: hogyan alakul át a digitális operáció?

A vállalati digitalizáció következő szakaszát egyre kevésbé az új alkalmazások vagy önálló technológiai projektek határozzák meg. A fókusz fokozatosan a működés egészének átalakulása felé mozdul: hogyan lehet a folyamatokat gyorsabban, hatékonyabban és nagyobb üzleti kontroll mellett működtetni egy olyan környezetben, ahol az adatmennyiség, a rendszerek komplexitása és a reakcióidővel kapcsolatos elvárások folyamatosan növekednek.

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.
Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.