Aki már a centit vágja az emberi, sőt emberfeletti kognitív képességekkel bíró algoritmusok megjelenéséig, az valószínűleg csalódottan fogadja majd azokat az eredményeket, amelyeket a világ jelenleg legjobbnak tartott modelljei produkáltak az Arc Prize Fundation frissített benchmarkján.
A nonprofit szervezet által alkotott ARC-AGI teszt azt próbálja megmérni, hol tartanak az egyes megoldások a mesterséges általános intelligencia (Artificial General Intelligence – AGI) eléréséhez vezető úton. Az emberek logikus gondolkodására, mintafelismerésére, intuíciójára építő benchmark első változata még 2019-ben készült, és egészen tavaly decemberig megugorhatatlannak bizonyult. Akkor azonban az OpenAI legújabb modellje, a teljes gőzzel működő o3 87,5 százalékot ért el, ami felette van a készítők által az emberi teljesítmény minimumjaként meghatározott 85 százalékos szintnek.
Az évek során felgyűlt tapasztalatokra támaszkodva azonban elkészült az ARC-AGI második generációja, aminél igyekeztek több olyan elemet is megváltoztatni, ami potenciálisan kijátszható. Ide tartoznak azok a próbák, amelyek megfelelően nagy erőforrással és időbefektetéssel megoldhatók az algoritmusok számára, ám az ilyen brute force módszereknek semmi közük a mérni kívánt képességekhez.
Mint kiderült, a nyitóképünkön látható, a korábbinál összetettebb, ám emberek számára továbbra is különösebb gond nélkül megoldható feladatokkal gyakorlatilag semmit nem tudnak kezdeni a világ legfejlettebb nagy nyelvi modelljei. Beszédes, hogy a legjobb eredményt o3-low mindössze 4 százalékot ért el. Az OpenAI legfejlettebb modelljéhez képest a többiek még gyatrább értékelést kapta: a Google Gemini 2.0 Flash és a DeepSeek R1 egyaránt 1,3 százalékot ért el, míg az Anthropic üdvöskéje, a Claude 3.7 mindössze 0,9 százalékot ért el.
Ott vagyunk már?
Az eredmények rávilágítanak arra, mennyire nem érdemes sokat beleképzelni abba, ha egy generatív modelltől PhD-szintű válaszok érkeznek a felvetett kérdéseinkre. Jelenleg ezek az algoritmusok nem sokkal többek egy felturbózott keresőnél, amelyek úgy pakolnak egyre meggyőzőbben egymás mellé karaktereket, képpontokat, hangokat, hogy semmiféle gondolkodási képességgel nem bírnak.
Az AGI elérésével kapcsolatos kérdések folyamatosan terítéken vannak. A tudományos világban azonban nem csupán abban nincs egyetértés, hogy ez mikor valósulhat meg, hanem az is vita tárgyát képezi, hogy mindez egyáltalán elérhető-e a jelenleg rendelkezésre álló technológiákra támaszkodva. Egyesek tudósok szerint a nagy nyelvi modellek (LLM) teljes zsákutcának tekinthetők az AGI szempontjából, miközben mások, mint például az OpenAI vezérigazgatója ennek ellenkezőjét hangoztatják. Sam Altman szerint cégénél már világosan látják az emberi képességeket tükröző vagy azokat túl is haladó mesterséges általános intelligencia felépítéséhez vezető utat.
Ehhez képest a gyakorlati tapasztalatok egyelőre nem sokban támasztják alá a befektetőknek szóló sikerpropagandát. Az ARC-AGI 2-höz kötődő gyászos benchmark-eredmények mellett más kutatások is arra jutottak, hogy a legkifinomultabbnak mondott LLM-ek is elhasalnak az egyszerű, általunk könnyen megoldható logikai feladványokon, beleértve az OpenAI tavaly debütált, emberszerű következtetési képességekkel jellemzett o1 modelljét is.
(Illusztráció: egy tesztpélda az ARC-AGI 2 benchmarkból; Forrás: Arc Prize Fundation)
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak