Az Apple kutatói a nagy nyelvi modellek egyik "legokosabbnak" gondolt változatáról, a megerősítéses tanulással, többkörös munkamenettel dolgozó LRM-ekről bizonyították be, hogy képességeik meglehetősen korlátosak.
Hirdetés
 

Sok szakember a mesterséges általános intelligencia (Artificial General Intelligence – AGI) eléréséhez vezető út egyik fontos elemének tartja a nagy méretű érvelési modelleket (Large Reasoning Model – LRM), amelyeknél a természetes nyelvfeldolgozás ötvöződik az érvelési képességek erősítésére fókuszáló megerősítéses tanulással. Az ilyen modelleket jellemzően összetett kérdések megválaszolására használják, ahol az algoritmus megoldáshoz több lépésben, a probléma részekre bontásával jut el.

Egy napokban publikált tanulmány [PDF] viszont rámutat arra, mennyire szűk az ilyen modellek alkalmazási spektruma, és milyen csalódást keltően szerepelnek, amennyiben kiléptetjük őket a konfortzónájukból. Nem véletlen, hogy az Apple kutatói által jegyzett anyag A gondolkodás illúziója címet kapta.

A szakemberek a fejlesztők jelenleg elérhető csúcsmodelljeit tették próbára. Az OpenAI o1/o3, a DeepSeek R1, a Claude 3.7 Sonnet Thinking és a Gemini Thinking egyaránt olyan logikai feladványokat kapott, amelyek jellemzően egy viszonylag könnyen felismerhető mechanizmusra épülnek, amely a feladat méretétől függetlenül alkalmazható.

Harmatos teljesítmény

Az egyik ilyen tesztfeladatként a Hanoi tornyai néven ismert játék szolgált, ahol egy különböző méretű korongokból álló tornyot kell az első rúdról a harmadikra átrakosgatni egyesével úgy, hogy egy korongot csak nála nagyobb koronra tudunk áthelyezni. A tesztek alapján az LRM-ek mindegyike hasonló problémákat mutatott. A közepesen összetett feladatokkal viszonylag jól boldogultak, ám sem a triviális, sem a komplexebb konfigurációkat nem voltak képesek hatékonyan kezelni.

A túl egyszerű feladványok esetében a modellek hiába jutottak el gyakorlatilag azonnal a jó megoldáshoz, a működési modelljükből fakadóan itt nem álltak meg, és értékes időt és erőforrást pazarolva próbáltak más (hibás) végeredményre jutni.

A komplexitás növelésével ugyanakkor nagyon hamar bekövetkezett egy "leolvadási pont". Ezen a szinten a megoldások pontossága nem simán csak csökken, hanem konkrétan nullára zuhan. Ezzel párhuzamosan a kutatók megfigyelték azt is, hogy egy ideig a modellek egyre több erőforrást tesznek bele a fealadat megoldásába, ám egy ponton "feladják", azaz csökkenteni kezdik érvelési képességeiket.  

Például a Claude 3.7 Sonnet Thinking és a DeepSeek-R1 egyaránt az 5 darabos Hanoi-toronynál kezd lejtmenetbe, a vizsgált modellek pedig jellemzően maximum 7 koronggal képesek még alkalmanként jó megoldásra jutni. A 8-as komplexitásnál viszont már nincs az az erőforrás és időtáv, amivel bármelyik képes lenne abszolválni a feladványt. Az már csak hab a tortán, hogy utóbbi még akkor is igaz volt, amikor a kutatók a modelleknek közvetlenül megadták a feladat elvégzéséhez szükséges konkrét lépéseket, azaz a megoldást.

A szerzők szerint az eredmények azt sugallják, hogy az LRM-ek nem biztos, hogy a megfelelő fejlesztési irányt jelentik az AGI eléréséhez, mivel "a jelenlegi megközelítések alapvető akadályokba ütközhetnek" az általános értelemben vett gondolkodás mesterséges reprodukálásában.

Piaci hírek

Az Oracle olyan megrendelést kapott, amilyet még nem látott

A direktben nem megnevezett ügyfél szó szerint minden elérhető cloudos kapacitásra bejelentkezett. A frissen közölt negyedéves eredmények szintén jól mutatnak, így nem csoda, hogy kilőtt az árfolyam.
 
A digitális támadások célpontjai ma már nem feltétlenül azok a vállalatok, amelyektől a támadók adatokat vagy pénzt akarnak szerezni. Elég, ha a támadás egyik láncszeme nem védett – az elkövetők ezen keresztül lépnek be a rendszerbe. És ez a láncszem gyakran nem is belül van.

a melléklet támogatója a One Solutions

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.