A legfejlettebb MI-modellek értékelése gyakran épül a magas szintű, nem szakértők által nehezen megszerezhető tudásra, de olyan módszerekre is szükség lenne, amelyekhez elegendők az általános ismeretek, és a helyes megoldások is könnyen ellenőrizhetők.

A Wellesley College, az Oberlin College, az austini University of Texas, a Northeastern University, a Charles University és a Cursor startup kutatócsoport munkatársai a Sunday Puzzle nevű kvízműsor alapján fejlesztettek újabb benchmarkot a mesterséges intelligencia problémamegoldó képességé tesztelésére. A céljuk egy olyan értékelő rendszer kidolgozása volt, ami az általános ismeretekkel rendelkező emberek számára megoldható problémákon vizsgálja az MI-rendszerek korlátait. A dolog annyiban nem tökéletes, hogy a játék angol nyelvű és Észak-Amerikára fókuszál, plusz a rejtvények nyilvánosan elérhetők, de csalásra egyelőre nem találtak bizonyítékot.

A február elején közzétett kutatási anyag egyik szerzője a TechCrunch kérdésére válaszolva arról beszélt, hogy a modellek értékelésére általánosan használt tesztek többsége olyan készségeket vizsgál, mint a sokat emlegetett, akadémiai szintű matematikai és természettudományi kérdésekben való kompetencia, de ezek nem relevánsak az átlagos felhasználók és a hétköznapi felhasználások szempontjából. A Sunday Puzzle-höz hasonló rádiós kvízjátékok azonban nem az ilyen ezoterikus tudást tesztelik, és a feladványok sem úgy vannak megfogalmazva, hogy a bemagolt adattömegre támaszkodva meg lehessen oldani azokat.

A kutatók szerint a szóban forgó problémák nehézségét az adja, hogy nem igazán lehet érdemi előrelépéseket produkálni a megfejtésükben, hanem amikor "minden egyszerre bekattan", akkor jön ki a megoldás – ehhez pedig az éleslátás és a gondolkodás eliminációs folyamatának kombinációjára van szükség. Ezzel a megközelítéssel máris meglepő felismerésekre bukkantak az MI működéséről: a fejlett érvelési képességeikkel reklámozott modellek – mint az OpenAI o1 modellje – például hajlamosak "feladni" a küzdelmet, és időnként olyan válaszokat generálnak, amelyekről saját maguk is tudják, hogy nem helyesek.

A legtöbben nem a PhD szintjén találkoznak az MI-vel

Igaz, hogy a Sunday Puzzle korábbi feladványaira elvileg kiképezhetők az egyes modellek, de minden héten új kérdéseket tesznek közzé, amelyekre abban a pillanatban tényleg nem lehet előre felkészülni. Ugyanakkor a műsort követve a referenciaérték is frissen tartható, és meg lehet vizsgálni, hogyan változik egy-egy rendszer teljesítménye az idő múlásával. Az már kiderült, hogy az említett o1 vagy a DeepSeek R1 messze felülmúlja ebben a tekintetben a többi megoldást, de néha bizarr döntéseket is hoznak: rossz választ adnak, amit aztán visszavonnak, vagy értelmetlen magyarázatokat adnak a válaszaikra, esetleg rögtön ráhibáznak a helyes megoldásra, de minden nyilvánvaló ok nélkül elkezdenek további válaszokat fontolgatni.

A kutatók a következő lépésben minél több modellre kiterjesztenék a vizsgálatokat, amivel reményeik szerint segíthetnek azonosítani azokat a területeket, ahol azok továbbfejleszthetők. Szerintük az érvelési képességek értékeléséhez olyan benchmarkokra is szükség lenne, amelyek nem feltételezik a PhD-szintű tudást, emellett az is jobb megoldásokhoz vezethet a jövőben, ha a kutatók szélesebb körének teszik lehetővé az eredmények megértését és elemzését. Mivel a legkorszerűbb modelleket egyre gyakrabban alkalmazzák az emberek széles körét érintő környezetekben, kívánatosnak tartják, hogy mindenki meggyőződhessen róla, mire képesek és mire nem képesek ezek a technológiák.

Közösség & HR

Elütötte a valóság a sivatagba tervezett, 120 kilométer hosszú felhőkarcolót

A WSJ szerint már világosan látszik, hogy annyiba kerülne befejezni a szaúdiak megalomán okosváros-projektjét, ami még arrafelé is egy picit soknak tűnik – különösen, hogy a megtérülésével sem érdemes komolyan számolni.
 

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

Mit tartogat a jövő ebben a rendkívül dinamikusan fejlődő környezetben?
Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.