A Wellesley College, az Oberlin College, az austini University of Texas, a Northeastern University, a Charles University és a Cursor startup kutatócsoport munkatársai a Sunday Puzzle nevű kvízműsor alapján fejlesztettek újabb benchmarkot a mesterséges intelligencia problémamegoldó képességé tesztelésére. A céljuk egy olyan értékelő rendszer kidolgozása volt, ami az általános ismeretekkel rendelkező emberek számára megoldható problémákon vizsgálja az MI-rendszerek korlátait. A dolog annyiban nem tökéletes, hogy a játék angol nyelvű és Észak-Amerikára fókuszál, plusz a rejtvények nyilvánosan elérhetők, de csalásra egyelőre nem találtak bizonyítékot.
A február elején közzétett kutatási anyag egyik szerzője a TechCrunch kérdésére válaszolva arról beszélt, hogy a modellek értékelésére általánosan használt tesztek többsége olyan készségeket vizsgál, mint a sokat emlegetett, akadémiai szintű matematikai és természettudományi kérdésekben való kompetencia, de ezek nem relevánsak az átlagos felhasználók és a hétköznapi felhasználások szempontjából. A Sunday Puzzle-höz hasonló rádiós kvízjátékok azonban nem az ilyen ezoterikus tudást tesztelik, és a feladványok sem úgy vannak megfogalmazva, hogy a bemagolt adattömegre támaszkodva meg lehessen oldani azokat.
A kutatók szerint a szóban forgó problémák nehézségét az adja, hogy nem igazán lehet érdemi előrelépéseket produkálni a megfejtésükben, hanem amikor "minden egyszerre bekattan", akkor jön ki a megoldás – ehhez pedig az éleslátás és a gondolkodás eliminációs folyamatának kombinációjára van szükség. Ezzel a megközelítéssel máris meglepő felismerésekre bukkantak az MI működéséről: a fejlett érvelési képességeikkel reklámozott modellek – mint az OpenAI o1 modellje – például hajlamosak "feladni" a küzdelmet, és időnként olyan válaszokat generálnak, amelyekről saját maguk is tudják, hogy nem helyesek.
A legtöbben nem a PhD szintjén találkoznak az MI-vel
Igaz, hogy a Sunday Puzzle korábbi feladványaira elvileg kiképezhetők az egyes modellek, de minden héten új kérdéseket tesznek közzé, amelyekre abban a pillanatban tényleg nem lehet előre felkészülni. Ugyanakkor a műsort követve a referenciaérték is frissen tartható, és meg lehet vizsgálni, hogyan változik egy-egy rendszer teljesítménye az idő múlásával. Az már kiderült, hogy az említett o1 vagy a DeepSeek R1 messze felülmúlja ebben a tekintetben a többi megoldást, de néha bizarr döntéseket is hoznak: rossz választ adnak, amit aztán visszavonnak, vagy értelmetlen magyarázatokat adnak a válaszaikra, esetleg rögtön ráhibáznak a helyes megoldásra, de minden nyilvánvaló ok nélkül elkezdenek további válaszokat fontolgatni.
A kutatók a következő lépésben minél több modellre kiterjesztenék a vizsgálatokat, amivel reményeik szerint segíthetnek azonosítani azokat a területeket, ahol azok továbbfejleszthetők. Szerintük az érvelési képességek értékeléséhez olyan benchmarkokra is szükség lenne, amelyek nem feltételezik a PhD-szintű tudást, emellett az is jobb megoldásokhoz vezethet a jövőben, ha a kutatók szélesebb körének teszik lehetővé az eredmények megértését és elemzését. Mivel a legkorszerűbb modelleket egyre gyakrabban alkalmazzák az emberek széles körét érintő környezetekben, kívánatosnak tartják, hogy mindenki meggyőződhessen róla, mire képesek és mire nem képesek ezek a technológiák.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak