Sok szakember a mesterséges általános intelligencia (Artificial General Intelligence – AGI) eléréséhez vezető út egyik fontos elemének tartja a nagy méretű érvelési modelleket (Large Reasoning Model – LRM), amelyeknél a természetes nyelvfeldolgozás ötvöződik az érvelési képességek erősítésére fókuszáló megerősítéses tanulással. Az ilyen modelleket jellemzően összetett kérdések megválaszolására használják, ahol az algoritmus megoldáshoz több lépésben, a probléma részekre bontásával jut el.
Egy napokban publikált tanulmány [PDF] viszont rámutat arra, mennyire szűk az ilyen modellek alkalmazási spektruma, és milyen csalódást keltően szerepelnek, amennyiben kiléptetjük őket a konfortzónájukból. Nem véletlen, hogy az Apple kutatói által jegyzett anyag A gondolkodás illúziója címet kapta.
A szakemberek a fejlesztők jelenleg elérhető csúcsmodelljeit tették próbára. Az OpenAI o1/o3, a DeepSeek R1, a Claude 3.7 Sonnet Thinking és a Gemini Thinking egyaránt olyan logikai feladványokat kapott, amelyek jellemzően egy viszonylag könnyen felismerhető mechanizmusra épülnek, amely a feladat méretétől függetlenül alkalmazható.
Harmatos teljesítmény
Az egyik ilyen tesztfeladatként a Hanoi tornyai néven ismert játék szolgált, ahol egy különböző méretű korongokból álló tornyot kell az első rúdról a harmadikra átrakosgatni egyesével úgy, hogy egy korongot csak nála nagyobb koronra tudunk áthelyezni. A tesztek alapján az LRM-ek mindegyike hasonló problémákat mutatott. A közepesen összetett feladatokkal viszonylag jól boldogultak, ám sem a triviális, sem a komplexebb konfigurációkat nem voltak képesek hatékonyan kezelni.
A túl egyszerű feladványok esetében a modellek hiába jutottak el gyakorlatilag azonnal a jó megoldáshoz, a működési modelljükből fakadóan itt nem álltak meg, és értékes időt és erőforrást pazarolva próbáltak más (hibás) végeredményre jutni.
A komplexitás növelésével ugyanakkor nagyon hamar bekövetkezett egy "leolvadási pont". Ezen a szinten a megoldások pontossága nem simán csak csökken, hanem konkrétan nullára zuhan. Ezzel párhuzamosan a kutatók megfigyelték azt is, hogy egy ideig a modellek egyre több erőforrást tesznek bele a fealadat megoldásába, ám egy ponton "feladják", azaz csökkenteni kezdik érvelési képességeiket.
Például a Claude 3.7 Sonnet Thinking és a DeepSeek-R1 egyaránt az 5 darabos Hanoi-toronynál kezd lejtmenetbe, a vizsgált modellek pedig jellemzően maximum 7 koronggal képesek még alkalmanként jó megoldásra jutni. A 8-as komplexitásnál viszont már nincs az az erőforrás és időtáv, amivel bármelyik képes lenne abszolválni a feladványt. Az már csak hab a tortán, hogy utóbbi még akkor is igaz volt, amikor a kutatók a modelleknek közvetlenül megadták a feladat elvégzéséhez szükséges konkrét lépéseket, azaz a megoldást.
A szerzők szerint az eredmények azt sugallják, hogy az LRM-ek nem biztos, hogy a megfelelő fejlesztési irányt jelentik az AGI eléréséhez, mivel "a jelenlegi megközelítések alapvető akadályokba ütközhetnek" az általános értelemben vett gondolkodás mesterséges reprodukálásában.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak