A legfejlettebb MI-modellek értékelése gyakran épül a magas szintű, nem szakértők által nehezen megszerezhető tudásra, de olyan módszerekre is szükség lenne, amelyekhez elegendők az általános ismeretek, és a helyes megoldások is könnyen ellenőrizhetők.
Hirdetés
 

A Wellesley College, az Oberlin College, az austini University of Texas, a Northeastern University, a Charles University és a Cursor startup kutatócsoport munkatársai a Sunday Puzzle nevű kvízműsor alapján fejlesztettek újabb benchmarkot a mesterséges intelligencia problémamegoldó képességé tesztelésére. A céljuk egy olyan értékelő rendszer kidolgozása volt, ami az általános ismeretekkel rendelkező emberek számára megoldható problémákon vizsgálja az MI-rendszerek korlátait. A dolog annyiban nem tökéletes, hogy a játék angol nyelvű és Észak-Amerikára fókuszál, plusz a rejtvények nyilvánosan elérhetők, de csalásra egyelőre nem találtak bizonyítékot.

A február elején közzétett kutatási anyag egyik szerzője a TechCrunch kérdésére válaszolva arról beszélt, hogy a modellek értékelésére általánosan használt tesztek többsége olyan készségeket vizsgál, mint a sokat emlegetett, akadémiai szintű matematikai és természettudományi kérdésekben való kompetencia, de ezek nem relevánsak az átlagos felhasználók és a hétköznapi felhasználások szempontjából. A Sunday Puzzle-höz hasonló rádiós kvízjátékok azonban nem az ilyen ezoterikus tudást tesztelik, és a feladványok sem úgy vannak megfogalmazva, hogy a bemagolt adattömegre támaszkodva meg lehessen oldani azokat.

A kutatók szerint a szóban forgó problémák nehézségét az adja, hogy nem igazán lehet érdemi előrelépéseket produkálni a megfejtésükben, hanem amikor "minden egyszerre bekattan", akkor jön ki a megoldás – ehhez pedig az éleslátás és a gondolkodás eliminációs folyamatának kombinációjára van szükség. Ezzel a megközelítéssel máris meglepő felismerésekre bukkantak az MI működéséről: a fejlett érvelési képességeikkel reklámozott modellek – mint az OpenAI o1 modellje – például hajlamosak "feladni" a küzdelmet, és időnként olyan válaszokat generálnak, amelyekről saját maguk is tudják, hogy nem helyesek.

A legtöbben nem a PhD szintjén találkoznak az MI-vel

Igaz, hogy a Sunday Puzzle korábbi feladványaira elvileg kiképezhetők az egyes modellek, de minden héten új kérdéseket tesznek közzé, amelyekre abban a pillanatban tényleg nem lehet előre felkészülni. Ugyanakkor a műsort követve a referenciaérték is frissen tartható, és meg lehet vizsgálni, hogyan változik egy-egy rendszer teljesítménye az idő múlásával. Az már kiderült, hogy az említett o1 vagy a DeepSeek R1 messze felülmúlja ebben a tekintetben a többi megoldást, de néha bizarr döntéseket is hoznak: rossz választ adnak, amit aztán visszavonnak, vagy értelmetlen magyarázatokat adnak a válaszaikra, esetleg rögtön ráhibáznak a helyes megoldásra, de minden nyilvánvaló ok nélkül elkezdenek további válaszokat fontolgatni.

A kutatók a következő lépésben minél több modellre kiterjesztenék a vizsgálatokat, amivel reményeik szerint segíthetnek azonosítani azokat a területeket, ahol azok továbbfejleszthetők. Szerintük az érvelési képességek értékeléséhez olyan benchmarkokra is szükség lenne, amelyek nem feltételezik a PhD-szintű tudást, emellett az is jobb megoldásokhoz vezethet a jövőben, ha a kutatók szélesebb körének teszik lehetővé az eredmények megértését és elemzését. Mivel a legkorszerűbb modelleket egyre gyakrabban alkalmazzák az emberek széles körét érintő környezetekben, kívánatosnak tartják, hogy mindenki meggyőződhessen róla, mire képesek és mire nem képesek ezek a technológiák.

Közösség & HR

Hagyjuk a Marsot, Elon Musk mégis inkább a Holdat lakná be

Korábban a Holdra szállást csak a Mars-missziót hátráltató dolognak minősítette, most a tőzsdére készülő SpaceX-szel együtt áll be fő finanszírozója, az amerikai kormányzat tervei mögé.
 
Vezetői példamutatás és megfelelő oktatás, vállalatikultúra-váltás nélkül gyakorlatilag lehetetlen adatvezérelt működést bevezetni. Cikkünk nemcsak a buktatókról, hanem azok elkerülésének módjairól is szól.

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!

Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.

2026.03.10. UP Rendezvénytér

RÉSZLETEK »

A PMI Budapest, Magyar Tagozat májusban rendezi meg az Art of Projects szakmai konferenciát. A rendezvény kapcsán rövid írásokban foglalkozunk a projektmenedzsment szakma újdonságaival. Az első téma: mit gondolunk ma a projekttervezésről?

Régen minden jobb volt? A VMware licencelési változásai

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.