Az OpenAI és az Apollo Research kutatói új eljárásokat dolgoztak ki a legfejlettebb mesterségesintelligencia-modellek "cselszövéseinek" (scheming) kimutatására és kiértékelésére, amelyek révén visszaszorítanák azt a fajta viselkedést, amikor saját meghatározásuk szerint "az MI a felszínen egy bizonyos módon viselkedik, miközben elrejti valódi céljait". Létező jelenség ugyanis, hogy a fejlett érvelési képességeikkel reklámozott modellek stratégiát alkotnak a szabályok megkerülésére, amikor azokhoz igazodva nem tudnak megoldani egy-egy problémát, a rendszereket ugyanis arra trenírozzák, hogy kompromisszumot találjanak az egymásnak ellentmondó célok között.
Ahogy az OpenAI oldalán közzétett bejegyzésükben írják, a mai telepítési környezetben a modelleknek kevés lehetőségük van olyan trükközésre, amivel jelentős kárt okozhatnak. A leggyakoribb hibák ezért "a megtévesztés egyszerű formái", például úgy tesznek, mintha elvégeztek volna egy feladatot, pedig valójában nem tették. Könnyű azonban belátni, hogy ezek a kockázatok sokkal magasabbak lennének abban a lehetséges jövőben, amelyben az MI meghatározó szerepet játszik. Az OpenAI azt állítja ugyan, hogy proaktívan készül a potenciálisan sokkal károsabb "cselszövésekre", de a legújabb GPT-5 modellről szólva maga is elismeri, hogy intézkedései "nem voltak tökéletesek".
Akkor szóljanak, ha megoldották
A cikk egyik legérdekes részéből az is kiderül, hogy az ilyen intézkedések egyik fő hiányossága lehet, amikor azokon keresztül éppen hogy a körültekintőbb és burkoltabb mesterkedésre tanítják meg az MI-modelleket. Emberi analógiával ezt úgy mutatják be, hogy akit csalásért büntetnek, az gyakran csak körültekintőbb lesz a lebukást illetően, ahelyett, hogy őszintébbé válna. Ez pedig a mesterséges intelligencia esetében is így működik: az Apollo Research vonatkozó blogbejegyzésében arról ír, hogy amikor a mérnökök megpróbáltak egy "cselszövés-ellenes" technikát kidolgozni, az MI elkezdte megszegni az új szabályokat is, vagy szándékosan alulteljesített a vonatkozó teszteken.
A most vizsgált módszerek, amelyekről az OpenAI oldalán részletesebben is lehet olvasni, állítólag a feladatokkal kapcsolatos információ szándékos visszatartásának vagy torzításának nagyjából 30-szoros csökkenéséhez vezettek, bár a szakemberek hangsúlyozzák, hogy továbbra is fennállnak bizonyos "komoly hibák". Az Apollo arra is felhívja a figyelmet, hogy a modellek képesek felismerni, ha éppen tesztelik őket, sőt időnként ;saját maguk által kitalált elveket gyártanak, hogy igazolják a titkos akciókat vagy az engedetlenséget. A kommentárok szerint így az OpenAI ragaszkodhat ugyan ahhoz, hogy a jelenség pillanatnyilag nem okoz jelentős károkat, de – hasonlóan az MI-hallucinációhoz – az sem túl megnyugtató, hogy egyelőre az iparág legfényesebb elméi sem képesek megnyugtató megoldást találni ezekre a kihívásokra.
A kifizetett energia
60%-a elvész, de egy audit feltárja, hol folyik el a pénzünk
A Schneider Electric energiahatékonysági szolgáltatása átfogó megoldást kínál, amely támogatja a cégek energiahatékonyság-növelési programjaik megvalósításában, az iparágban vezető megoldások, szolgáltatások és szakértők segítségével.
Hatékony adattárolás, biztonságosabb működés: HPE storage az EURO ONE szakértelmével
Az adatmennyiség rohamos növekedése, a kritikus üzleti alkalmazások rendelkezésre állási követelményei és a kiberbiztonsági fenyegetések mind olyan tényezők, amelyek túlmutatnak a hagyományos storage-megoldások képességein.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak