Frissült a mesterséges általános intelligencia eléréséhez vezető utat mérő ARC-AGI teszt. Ezen a legfejlettebb nagy nyelvi modellek is úgy buktak meg, hogy csak füstölt.

Aki már a centit vágja az emberi, sőt emberfeletti kognitív képességekkel bíró algoritmusok megjelenéséig, az valószínűleg csalódottan fogadja majd azokat az eredményeket, amelyeket a világ jelenleg legjobbnak tartott modelljei produkáltak az Arc Prize Fundation frissített benchmarkján.

A nonprofit szervezet által alkotott ARC-AGI teszt azt próbálja megmérni, hol tartanak az egyes megoldások a mesterséges általános intelligencia (Artificial General Intelligence – AGI) eléréséhez vezető úton. Az emberek logikus gondolkodására, mintafelismerésére, intuíciójára építő benchmark első változata még 2019-ben készült, és egészen tavaly decemberig megugorhatatlannak bizonyult. Akkor azonban az OpenAI legújabb modellje, a teljes gőzzel működő o3 87,5 százalékot ért el, ami felette van a készítők által az emberi teljesítmény minimumjaként meghatározott 85 százalékos szintnek.

Az évek során felgyűlt tapasztalatokra támaszkodva azonban elkészült az ARC-AGI második generációja, aminél igyekeztek több olyan elemet is megváltoztatni, ami potenciálisan kijátszható. Ide tartoznak azok a próbák, amelyek megfelelően nagy erőforrással és időbefektetéssel megoldhatók az algoritmusok számára, ám az ilyen brute force módszereknek semmi közük a mérni kívánt képességekhez.

Mint kiderült, a nyitóképünkön látható, a korábbinál összetettebb, ám emberek számára továbbra is különösebb gond nélkül megoldható feladatokkal gyakorlatilag semmit nem tudnak kezdeni a világ legfejlettebb nagy nyelvi modelljei. Beszédes, hogy a legjobb eredményt o3-low mindössze 4 százalékot ért el. Az OpenAI legfejlettebb modelljéhez képest a többiek még gyatrább értékelést kapta: a Google Gemini 2.0 Flash és a DeepSeek R1 egyaránt 1,3 százalékot ért el, míg az Anthropic üdvöskéje, a Claude 3.7 mindössze 0,9 százalékot ért el.

Ott vagyunk már?

Az eredmények rávilágítanak arra, mennyire nem érdemes sokat beleképzelni abba, ha egy generatív modelltől PhD-szintű válaszok érkeznek a felvetett kérdéseinkre. Jelenleg ezek az algoritmusok nem sokkal többek egy felturbózott keresőnél, amelyek úgy pakolnak egyre meggyőzőbben egymás mellé karaktereket, képpontokat, hangokat, hogy semmiféle gondolkodási képességgel nem bírnak.

Az AGI elérésével kapcsolatos kérdések folyamatosan terítéken vannak. A tudományos világban azonban nem csupán abban nincs egyetértés, hogy ez mikor valósulhat meg, hanem az is vita tárgyát képezi, hogy mindez egyáltalán elérhető-e a jelenleg rendelkezésre álló technológiákra támaszkodva. Egyesek tudósok szerint a nagy nyelvi modellek (LLM) teljes zsákutcának tekinthetők az AGI szempontjából, miközben mások, mint például az OpenAI vezérigazgatója ennek ellenkezőjét hangoztatják. Sam Altman szerint cégénél már világosan látják az emberi képességeket tükröző vagy azokat túl is haladó mesterséges általános intelligencia felépítéséhez vezető utat.

Ehhez képest a gyakorlati tapasztalatok egyelőre nem sokban támasztják alá a befektetőknek szóló sikerpropagandát. Az ARC-AGI 2-höz kötődő gyászos benchmark-eredmények mellett más kutatások is arra jutottak, hogy a legkifinomultabbnak mondott LLM-ek is elhasalnak az egyszerű, általunk könnyen megoldható logikai feladványokon, beleértve az OpenAI tavaly debütált, emberszerű következtetési képességekkel jellemzett o1 modelljét is.

(Illusztráció: egy tesztpélda az ARC-AGI 2 benchmarkból; Forrás: Arc Prize Fundation)

Cloud & big data

Rendőri fellépés vetett véget az első utcai ember-robot veszekedésnek

A kínai Makaón egy idős asszony támadta le a háta mögött tébláboló humanoidot, aki véletlenül alaposan ráijesztett.
 
A VMware felvásárlása és licencelési gyakorlatának átalakítása erősen rányomta a bélyegét az adatközponti infrastruktúrára: a korábban kiszámítható alap bizonytalanná és gyakran költségesebbé vált.

a melléklet támogatója az EURO ONE

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.