Az OpenAI kutatói új módszerrel próbálják a becsület ösvényén tartani a fejlett mesterségesintelligencia-modelleket, de ők is elismerik, hogy bőven van még teendőjük a probléma felszámolásával.

Az OpenAI és az Apollo Research kutatói új eljárásokat dolgoztak ki a legfejlettebb mesterségesintelligencia-modellek "cselszövéseinek" (scheming) kimutatására és kiértékelésére, amelyek révén visszaszorítanák azt a fajta viselkedést, amikor saját meghatározásuk szerint "az MI a felszínen egy bizonyos módon viselkedik, miközben elrejti valódi céljait". Létező jelenség ugyanis, hogy a fejlett érvelési képességeikkel reklámozott modellek stratégiát alkotnak a szabályok megkerülésére, amikor azokhoz igazodva nem tudnak megoldani egy-egy problémát, a rendszereket ugyanis arra trenírozzák, hogy kompromisszumot találjanak az egymásnak ellentmondó célok között.

Ahogy az OpenAI oldalán közzétett bejegyzésükben írják, a mai telepítési környezetben a modelleknek kevés lehetőségük van olyan trükközésre, amivel jelentős kárt okozhatnak. A leggyakoribb hibák ezért "a megtévesztés egyszerű formái", például úgy tesznek, mintha elvégeztek volna egy feladatot, pedig valójában nem tették. Könnyű azonban belátni, hogy ezek a kockázatok sokkal magasabbak lennének abban a lehetséges jövőben, amelyben az MI meghatározó szerepet játszik. Az OpenAI azt állítja ugyan, hogy proaktívan készül a potenciálisan sokkal károsabb "cselszövésekre", de a legújabb GPT-5 modellről szólva maga is elismeri, hogy intézkedései "nem voltak tökéletesek".

Akkor szóljanak, ha megoldották

A cikk egyik legérdekes részéből az is kiderül, hogy az ilyen intézkedések egyik fő hiányossága lehet, amikor azokon keresztül éppen hogy a körültekintőbb és burkoltabb mesterkedésre tanítják meg az MI-modelleket. Emberi analógiával ezt úgy mutatják be, hogy akit csalásért büntetnek, az gyakran csak körültekintőbb lesz a lebukást illetően, ahelyett, hogy őszintébbé válna. Ez pedig a mesterséges intelligencia esetében is így működik: az Apollo Research vonatkozó blogbejegyzésében arról ír, hogy amikor a mérnökök megpróbáltak egy "cselszövés-ellenes" technikát kidolgozni, az MI elkezdte megszegni az új szabályokat is, vagy szándékosan alulteljesített a vonatkozó teszteken.

A most vizsgált módszerek, amelyekről az OpenAI oldalán részletesebben is lehet olvasni, állítólag a feladatokkal kapcsolatos információ szándékos visszatartásának vagy torzításának nagyjából 30-szoros csökkenéséhez vezettek, bár a szakemberek hangsúlyozzák, hogy továbbra is fennállnak bizonyos "komoly hibák". Az Apollo arra is felhívja a figyelmet, hogy a modellek képesek felismerni, ha éppen tesztelik őket, sőt időnként ;saját maguk által kitalált elveket gyártanak, hogy igazolják a titkos akciókat vagy az engedetlenséget. A kommentárok szerint így az OpenAI ragaszkodhat ugyan ahhoz, hogy a jelenség pillanatnyilag nem okoz jelentős károkat, de – hasonlóan az MI-hallucinációhoz – az sem túl megnyugtató, hogy egyelőre az iparág legfényesebb elméi sem képesek megnyugtató megoldást találni ezekre a kihívásokra.

Piaci hírek

Minden eddiginél többen lennének nemzetközi projektmenedzserek

Rekordszámban jelentkeztek idén a Corvinus Egyetem nemzetközi projektmenedzser posztgraduális képzésére.
 
Hirdetés

A kifizetett energia
60%-a elvész, de egy audit feltárja, hol folyik el a pénzünk

A Schneider Electric energiahatékonysági szolgáltatása átfogó megoldást kínál, amely támogatja a cégek energiahatékonyság-növelési programjaik megvalósításában, az iparágban vezető megoldások, szolgáltatások és szakértők segítségével.

A vállalati storage-nek már nem csak teljesítményben és biztonságban kell versenyképesnek lennie, hanem a fenntartható működés, energiahatékonyság és környezeti megfelelés szempontjából is.

a melléklet támogatója az EURO ONE

Hirdetés

Hatékony adattárolás, biztonságosabb működés: HPE storage az EURO ONE szakértelmével

Az adatmennyiség rohamos növekedése, a kritikus üzleti alkalmazások rendelkezésre állási követelményei és a kiberbiztonsági fenyegetések mind olyan tényezők, amelyek túlmutatnak a hagyományos storage-megoldások képességein.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.