Sok szakember a mesterséges általános intelligencia (Artificial General Intelligence – AGI) eléréséhez vezető út egyik fontos elemének tartja a nagy méretű érvelési modelleket (Large Reasoning Model – LRM), amelyeknél a természetes nyelvfeldolgozás ötvöződik az érvelési képességek erősítésére fókuszáló megerősítéses tanulással. Az ilyen modelleket jellemzően összetett kérdések megválaszolására használják, ahol az algoritmus megoldáshoz több lépésben, a probléma részekre bontásával jut el.
Egy napokban publikált tanulmány [PDF] viszont rámutat arra, mennyire szűk az ilyen modellek alkalmazási spektruma, és milyen csalódást keltően szerepelnek, amennyiben kiléptetjük őket a konfortzónájukból. Nem véletlen, hogy az Apple kutatói által jegyzett anyag A gondolkodás illúziója címet kapta.
A szakemberek a fejlesztők jelenleg elérhető csúcsmodelljeit tették próbára. Az OpenAI o1/o3, a DeepSeek R1, a Claude 3.7 Sonnet Thinking és a Gemini Thinking egyaránt olyan logikai feladványokat kapott, amelyek jellemzően egy viszonylag könnyen felismerhető mechanizmusra épülnek, amely a feladat méretétől függetlenül alkalmazható.
Harmatos teljesítmény
Az egyik ilyen tesztfeladatként a Hanoi tornyai néven ismert játék szolgált, ahol egy különböző méretű korongokból álló tornyot kell az első rúdról a harmadikra átrakosgatni egyesével úgy, hogy egy korongot csak nála nagyobb koronra tudunk áthelyezni. A tesztek alapján az LRM-ek mindegyike hasonló problémákat mutatott. A közepesen összetett feladatokkal viszonylag jól boldogultak, ám sem a triviális, sem a komplexebb konfigurációkat nem voltak képesek hatékonyan kezelni.
A túl egyszerű feladványok esetében a modellek hiába jutottak el gyakorlatilag azonnal a jó megoldáshoz, a működési modelljükből fakadóan itt nem álltak meg, és értékes időt és erőforrást pazarolva próbáltak más (hibás) végeredményre jutni.
A komplexitás növelésével ugyanakkor nagyon hamar bekövetkezett egy "leolvadási pont". Ezen a szinten a megoldások pontossága nem simán csak csökken, hanem konkrétan nullára zuhan. Ezzel párhuzamosan a kutatók megfigyelték azt is, hogy egy ideig a modellek egyre több erőforrást tesznek bele a fealadat megoldásába, ám egy ponton "feladják", azaz csökkenteni kezdik érvelési képességeiket.
Például a Claude 3.7 Sonnet Thinking és a DeepSeek-R1 egyaránt az 5 darabos Hanoi-toronynál kezd lejtmenetbe, a vizsgált modellek pedig jellemzően maximum 7 koronggal képesek még alkalmanként jó megoldásra jutni. A 8-as komplexitásnál viszont már nincs az az erőforrás és időtáv, amivel bármelyik képes lenne abszolválni a feladványt. Az már csak hab a tortán, hogy utóbbi még akkor is igaz volt, amikor a kutatók a modelleknek közvetlenül megadták a feladat elvégzéséhez szükséges konkrét lépéseket, azaz a megoldást.
A szerzők szerint az eredmények azt sugallják, hogy az LRM-ek nem biztos, hogy a megfelelő fejlesztési irányt jelentik az AGI eléréséhez, mivel "a jelenlegi megközelítések alapvető akadályokba ütközhetnek" az általános értelemben vett gondolkodás mesterséges reprodukálásában.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!
Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.
2026.03.10. UP Rendezvénytér
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak