A legfejlettebb MI-modellek értékelése gyakran épül a magas szintű, nem szakértők által nehezen megszerezhető tudásra, de olyan módszerekre is szükség lenne, amelyekhez elegendők az általános ismeretek, és a helyes megoldások is könnyen ellenőrizhetők.

A Wellesley College, az Oberlin College, az austini University of Texas, a Northeastern University, a Charles University és a Cursor startup kutatócsoport munkatársai a Sunday Puzzle nevű kvízműsor alapján fejlesztettek újabb benchmarkot a mesterséges intelligencia problémamegoldó képességé tesztelésére. A céljuk egy olyan értékelő rendszer kidolgozása volt, ami az általános ismeretekkel rendelkező emberek számára megoldható problémákon vizsgálja az MI-rendszerek korlátait. A dolog annyiban nem tökéletes, hogy a játék angol nyelvű és Észak-Amerikára fókuszál, plusz a rejtvények nyilvánosan elérhetők, de csalásra egyelőre nem találtak bizonyítékot.

A február elején közzétett kutatási anyag egyik szerzője a TechCrunch kérdésére válaszolva arról beszélt, hogy a modellek értékelésére általánosan használt tesztek többsége olyan készségeket vizsgál, mint a sokat emlegetett, akadémiai szintű matematikai és természettudományi kérdésekben való kompetencia, de ezek nem relevánsak az átlagos felhasználók és a hétköznapi felhasználások szempontjából. A Sunday Puzzle-höz hasonló rádiós kvízjátékok azonban nem az ilyen ezoterikus tudást tesztelik, és a feladványok sem úgy vannak megfogalmazva, hogy a bemagolt adattömegre támaszkodva meg lehessen oldani azokat.

A kutatók szerint a szóban forgó problémák nehézségét az adja, hogy nem igazán lehet érdemi előrelépéseket produkálni a megfejtésükben, hanem amikor "minden egyszerre bekattan", akkor jön ki a megoldás – ehhez pedig az éleslátás és a gondolkodás eliminációs folyamatának kombinációjára van szükség. Ezzel a megközelítéssel máris meglepő felismerésekre bukkantak az MI működéséről: a fejlett érvelési képességeikkel reklámozott modellek – mint az OpenAI o1 modellje – például hajlamosak "feladni" a küzdelmet, és időnként olyan válaszokat generálnak, amelyekről saját maguk is tudják, hogy nem helyesek.

A legtöbben nem a PhD szintjén találkoznak az MI-vel

Igaz, hogy a Sunday Puzzle korábbi feladványaira elvileg kiképezhetők az egyes modellek, de minden héten új kérdéseket tesznek közzé, amelyekre abban a pillanatban tényleg nem lehet előre felkészülni. Ugyanakkor a műsort követve a referenciaérték is frissen tartható, és meg lehet vizsgálni, hogyan változik egy-egy rendszer teljesítménye az idő múlásával. Az már kiderült, hogy az említett o1 vagy a DeepSeek R1 messze felülmúlja ebben a tekintetben a többi megoldást, de néha bizarr döntéseket is hoznak: rossz választ adnak, amit aztán visszavonnak, vagy értelmetlen magyarázatokat adnak a válaszaikra, esetleg rögtön ráhibáznak a helyes megoldásra, de minden nyilvánvaló ok nélkül elkezdenek további válaszokat fontolgatni.

A kutatók a következő lépésben minél több modellre kiterjesztenék a vizsgálatokat, amivel reményeik szerint segíthetnek azonosítani azokat a területeket, ahol azok továbbfejleszthetők. Szerintük az érvelési képességek értékeléséhez olyan benchmarkokra is szükség lenne, amelyek nem feltételezik a PhD-szintű tudást, emellett az is jobb megoldásokhoz vezethet a jövőben, ha a kutatók szélesebb körének teszik lehetővé az eredmények megértését és elemzését. Mivel a legkorszerűbb modelleket egyre gyakrabban alkalmazzák az emberek széles körét érintő környezetekben, kívánatosnak tartják, hogy mindenki meggyőződhessen róla, mire képesek és mire nem képesek ezek a technológiák.

Közösség & HR

Szabadon kipróbálható a Google legfejlettebb videógeneráló modellje

A YouTube videók millióin pallérozott Veo 3 képességeit a Google Cloud részeként mostantól bárki letesztelheti.
 
Hirdetés

Így újult meg Magyarország leggyorsabb mobilhálózata

Közel 100 milliárd forintos beruházással, a rádiós és maghálózat teljes modernizációjával zárult le a Yettel történetének egyik legnagyobb műszaki fejlesztése.

A kompromittált rendszerek, a dark weben felbukkanó ügyféladatok vagy a zsarolóvírus-kampányok következményei már a vezérigazgatói és pénzügyi igazgatói irodában csapódnak le – jogi, reputációs és üzleti szinten is. Lehet és kell is védekezni ellene.

a melléklet támogatója a One Solutions

Hirdetés

Cyber Threat Intelligence: üzleti előny a sötét adatokból

Egyetlen kompromittált jelszó. Egy belépési pont, amit már nem használnak. Egy korábbi alkalmazott adatszivárgása. Ezek ma már nem csupán technikai hibák, hanem valós üzleti fenyegetések, amelyek a digitális alvilág piacán előbb bukkannak fel, mint ahogy a cég egyáltalán észrevenné.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.