A Wellesley College, az Oberlin College, az austini University of Texas, a Northeastern University, a Charles University és a Cursor startup kutatócsoport munkatársai a Sunday Puzzle nevű kvízműsor alapján fejlesztettek újabb benchmarkot a mesterséges intelligencia problémamegoldó képességé tesztelésére. A céljuk egy olyan értékelő rendszer kidolgozása volt, ami az általános ismeretekkel rendelkező emberek számára megoldható problémákon vizsgálja az MI-rendszerek korlátait. A dolog annyiban nem tökéletes, hogy a játék angol nyelvű és Észak-Amerikára fókuszál, plusz a rejtvények nyilvánosan elérhetők, de csalásra egyelőre nem találtak bizonyítékot.
A február elején közzétett kutatási anyag egyik szerzője a TechCrunch kérdésére válaszolva arról beszélt, hogy a modellek értékelésére általánosan használt tesztek többsége olyan készségeket vizsgál, mint a sokat emlegetett, akadémiai szintű matematikai és természettudományi kérdésekben való kompetencia, de ezek nem relevánsak az átlagos felhasználók és a hétköznapi felhasználások szempontjából. A Sunday Puzzle-höz hasonló rádiós kvízjátékok azonban nem az ilyen ezoterikus tudást tesztelik, és a feladványok sem úgy vannak megfogalmazva, hogy a bemagolt adattömegre támaszkodva meg lehessen oldani azokat.
A kutatók szerint a szóban forgó problémák nehézségét az adja, hogy nem igazán lehet érdemi előrelépéseket produkálni a megfejtésükben, hanem amikor "minden egyszerre bekattan", akkor jön ki a megoldás – ehhez pedig az éleslátás és a gondolkodás eliminációs folyamatának kombinációjára van szükség. Ezzel a megközelítéssel máris meglepő felismerésekre bukkantak az MI működéséről: a fejlett érvelési képességeikkel reklámozott modellek – mint az OpenAI o1 modellje – például hajlamosak "feladni" a küzdelmet, és időnként olyan válaszokat generálnak, amelyekről saját maguk is tudják, hogy nem helyesek.
A legtöbben nem a PhD szintjén találkoznak az MI-vel
Igaz, hogy a Sunday Puzzle korábbi feladványaira elvileg kiképezhetők az egyes modellek, de minden héten új kérdéseket tesznek közzé, amelyekre abban a pillanatban tényleg nem lehet előre felkészülni. Ugyanakkor a műsort követve a referenciaérték is frissen tartható, és meg lehet vizsgálni, hogyan változik egy-egy rendszer teljesítménye az idő múlásával. Az már kiderült, hogy az említett o1 vagy a DeepSeek R1 messze felülmúlja ebben a tekintetben a többi megoldást, de néha bizarr döntéseket is hoznak: rossz választ adnak, amit aztán visszavonnak, vagy értelmetlen magyarázatokat adnak a válaszaikra, esetleg rögtön ráhibáznak a helyes megoldásra, de minden nyilvánvaló ok nélkül elkezdenek további válaszokat fontolgatni.
A kutatók a következő lépésben minél több modellre kiterjesztenék a vizsgálatokat, amivel reményeik szerint segíthetnek azonosítani azokat a területeket, ahol azok továbbfejleszthetők. Szerintük az érvelési képességek értékeléséhez olyan benchmarkokra is szükség lenne, amelyek nem feltételezik a PhD-szintű tudást, emellett az is jobb megoldásokhoz vezethet a jövőben, ha a kutatók szélesebb körének teszik lehetővé az eredmények megértését és elemzését. Mivel a legkorszerűbb modelleket egyre gyakrabban alkalmazzák az emberek széles körét érintő környezetekben, kívánatosnak tartják, hogy mindenki meggyőződhessen róla, mire képesek és mire nem képesek ezek a technológiák.
Exkluzív szakmai nap a felhők fölött: KYOCERA Roadshow a MOL Toronyban
A jövő irodája már nem a jövő – hanem a jelen. A digitális transzformáció új korszakába lépünk, és ebben a KYOCERA nemcsak követi, hanem formálja is az irányt. Most itt a lehetőség, hogy első kézből ismerje meg a legújabb hardveres és szoftveres fejlesztéseket, amelyekkel a KYOCERA új szintre emeli a dokumentumkezelést és az üzleti hatékonyságot.
Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?
A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió. A valódi előrelépéshez olyan infrastruktúrára, szolgáltatásokra és partneri támogatásra van szükség, amelyek nemcsak technológiai válaszokat adnak, hanem üzletileg is működőképes megoldásokat kínálnak.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak