Az egyszerű és a komplex feladatoktól is leolvadnak a "gondolkodó" MI-modellek

Bitport2025.06.10.Piaci hírek

Az Apple kutatói a nagy nyelvi modellek egyik "legokosabbnak" gondolt változatáról, a megerősítéses tanulással, többkörös munkamenettel dolgozó LRM-ekről bizonyították be, hogy képességeik meglehetősen korlátosak.

Hirdetés

Sok szakember a mesterséges általános intelligencia (Artificial General Intelligence – AGI) eléréséhez vezető út egyik fontos elemének tartja a nagy méretű érvelési modelleket (Large Reasoning Model – LRM), amelyeknél a természetes nyelvfeldolgozás ötvöződik az érvelési képességek erősítésére fókuszáló megerősítéses tanulással. Az ilyen modelleket jellemzően összetett kérdések megválaszolására használják, ahol az algoritmus megoldáshoz több lépésben, a probléma részekre bontásával jut el.

Egy napokban publikált tanulmány [PDF] viszont rámutat arra, mennyire szűk az ilyen modellek alkalmazási spektruma, és milyen csalódást keltően szerepelnek, amennyiben kiléptetjük őket a konfortzónájukból. Nem véletlen, hogy az Apple kutatói által jegyzett anyag A gondolkodás illúziója címet kapta.

A szakemberek a fejlesztők jelenleg elérhető csúcsmodelljeit tették próbára. Az OpenAI o1/o3, a DeepSeek R1, a Claude 3.7 Sonnet Thinking és a Gemini Thinking egyaránt olyan logikai feladványokat kapott, amelyek jellemzően egy viszonylag könnyen felismerhető mechanizmusra épülnek, amely a feladat méretétől függetlenül alkalmazható.

Harmatos teljesítmény

Az egyik ilyen tesztfeladatként a Hanoi tornyai néven ismert játék szolgált, ahol egy különböző méretű korongokból álló tornyot kell az első rúdról a harmadikra átrakosgatni egyesével úgy, hogy egy korongot csak nála nagyobb koronra tudunk áthelyezni. A tesztek alapján az LRM-ek mindegyike hasonló problémákat mutatott. A közepesen összetett feladatokkal viszonylag jól boldogultak, ám sem a triviális, sem a komplexebb konfigurációkat nem voltak képesek hatékonyan kezelni.

A túl egyszerű feladványok esetében a modellek hiába jutottak el gyakorlatilag azonnal a jó megoldáshoz, a működési modelljükből fakadóan itt nem álltak meg, és értékes időt és erőforrást pazarolva próbáltak más (hibás) végeredményre jutni.

A komplexitás növelésével ugyanakkor nagyon hamar bekövetkezett egy "leolvadási pont". Ezen a szinten a megoldások pontossága nem simán csak csökken, hanem konkrétan nullára zuhan. Ezzel párhuzamosan a kutatók megfigyelték azt is, hogy egy ideig a modellek egyre több erőforrást tesznek bele a fealadat megoldásába, ám egy ponton "feladják", azaz csökkenteni kezdik érvelési képességeiket.

Például a Claude 3.7 Sonnet Thinking és a DeepSeek-R1 egyaránt az 5 darabos Hanoi-toronynál kezd lejtmenetbe, a vizsgált modellek pedig jellemzően maximum 7 koronggal képesek még alkalmanként jó megoldásra jutni. A 8-as komplexitásnál viszont már nincs az az erőforrás és időtáv, amivel bármelyik képes lenne abszolválni a feladványt. Az már csak hab a tortán, hogy utóbbi még akkor is igaz volt, amikor a kutatók a modelleknek közvetlenül megadták a feladat elvégzéséhez szükséges konkrét lépéseket, azaz a megoldást.

A szerzők szerint az eredmények azt sugallják, hogy az LRM-ek nem biztos, hogy a megfelelő fejlesztési irányt jelentik az AGI eléréséhez, mivel "a jelenlegi megközelítések alapvető akadályokba ütközhetnek" az általános értelemben vett gondolkodás mesterséges reprodukálásában.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Piaci hírek

Valaki végre elmagyarázta, miért veszi át az emberek munkáját az MI

A Nobel-díjas Geoffrey Hinton is úgy látja, hogy a jelenlegi felállásban azért erőltetik az emberi munka kiváltását a mesterséges intelligenciával, mert másképp nehéz lenne nyereségbe fordítani a technológiába öntött óriási befektetéseket.

Hirdetés

Mi lesz a sötétszál sorsa?

A mindent behálózó dark fiber létjogosultsága megkérdőjeleződik a vezetékmentes technológiák megállíthatatlan terjedésével?

A hónap témája

CAPEX-ből OPEX-be. A transzformáció ára az IT-ban

A vállalati IT-költések a hagyományos, tőkebefektetésen alapuló modellről egyre inkább a szolgáltatásalapú, üzemeltetési költségekre épülő megközelítés felé tolódnak el. Utóbbi rugalmasabb, azonban a teljes birtoklási költség sokszor csak utólag válik láthatóvá.

a melléklet támogatója a 4iG

CIO Podcast

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Valaki végre elmagyarázta, miért veszi át az emberek munkáját az MI

CAPEX-ből OPEX-be. A transzformáció ára az IT-ban

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia