Pontot se nagyon szereznek az MI-modellek az emberi intelligenciát igénylő teszten

Bitport2025.03.26.Cloud & big data

Frissült a mesterséges általános intelligencia eléréséhez vezető utat mérő ARC-AGI teszt. Ezen a legfejlettebb nagy nyelvi modellek is úgy buktak meg, hogy csak füstölt.

Aki már a centit vágja az emberi, sőt emberfeletti kognitív képességekkel bíró algoritmusok megjelenéséig, az valószínűleg csalódottan fogadja majd azokat az eredményeket, amelyeket a világ jelenleg legjobbnak tartott modelljei produkáltak az Arc Prize Fundation frissített benchmarkján.

A nonprofit szervezet által alkotott ARC-AGI teszt azt próbálja megmérni, hol tartanak az egyes megoldások a mesterséges általános intelligencia (Artificial General Intelligence – AGI) eléréséhez vezető úton. Az emberek logikus gondolkodására, mintafelismerésére, intuíciójára építő benchmark első változata még 2019-ben készült, és egészen tavaly decemberig megugorhatatlannak bizonyult. Akkor azonban az OpenAI legújabb modellje, a teljes gőzzel működő o3 87,5 százalékot ért el, ami felette van a készítők által az emberi teljesítmény minimumjaként meghatározott 85 százalékos szintnek.

Az évek során felgyűlt tapasztalatokra támaszkodva azonban elkészült az ARC-AGI második generációja, aminél igyekeztek több olyan elemet is megváltoztatni, ami potenciálisan kijátszható. Ide tartoznak azok a próbák, amelyek megfelelően nagy erőforrással és időbefektetéssel megoldhatók az algoritmusok számára, ám az ilyen brute force módszereknek semmi közük a mérni kívánt képességekhez.

Mint kiderült, a nyitóképünkön látható, a korábbinál összetettebb, ám emberek számára továbbra is különösebb gond nélkül megoldható feladatokkal gyakorlatilag semmit nem tudnak kezdeni a világ legfejlettebb nagy nyelvi modelljei. Beszédes, hogy a legjobb eredményt o3-low mindössze 4 százalékot ért el. Az OpenAI legfejlettebb modelljéhez képest a többiek még gyatrább értékelést kapta: a Google Gemini 2.0 Flash és a DeepSeek R1 egyaránt 1,3 százalékot ért el, míg az Anthropic üdvöskéje, a Claude 3.7 mindössze 0,9 százalékot ért el.

Ott vagyunk már?

Az eredmények rávilágítanak arra, mennyire nem érdemes sokat beleképzelni abba, ha egy generatív modelltől PhD-szintű válaszok érkeznek a felvetett kérdéseinkre. Jelenleg ezek az algoritmusok nem sokkal többek egy felturbózott keresőnél, amelyek úgy pakolnak egyre meggyőzőbben egymás mellé karaktereket, képpontokat, hangokat, hogy semmiféle gondolkodási képességgel nem bírnak.

Az AGI elérésével kapcsolatos kérdések folyamatosan terítéken vannak. A tudományos világban azonban nem csupán abban nincs egyetértés, hogy ez mikor valósulhat meg, hanem az is vita tárgyát képezi, hogy mindez egyáltalán elérhető-e a jelenleg rendelkezésre álló technológiákra támaszkodva. Egyesek tudósok szerint a nagy nyelvi modellek (LLM) teljes zsákutcának tekinthetők az AGI szempontjából, miközben mások, mint például az OpenAI vezérigazgatója ennek ellenkezőjét hangoztatják. Sam Altman szerint cégénél már világosan látják az emberi képességeket tükröző vagy azokat túl is haladó mesterséges általános intelligencia felépítéséhez vezető utat.

Ehhez képest a gyakorlati tapasztalatok egyelőre nem sokban támasztják alá a befektetőknek szóló sikerpropagandát. Az ARC-AGI 2-höz kötődő gyászos benchmark-eredmények mellett más kutatások is arra jutottak, hogy a legkifinomultabbnak mondott LLM-ek is elhasalnak az egyszerű, általunk könnyen megoldható logikai feladványokon, beleértve az OpenAI tavaly debütált, emberszerű következtetési képességekkel jellemzett o1 modelljét is.

(Illusztráció: egy tesztpélda az ARC-AGI 2 benchmarkból; Forrás: Arc Prize Fundation)

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Az ENSZ-főtitkár szerint a szabályozás nem tud lépést tartani az MI fejlődésével

A nemzetközi szervezet arra is figyelmeztet, hogy a mesterséges intelligencia még tovább súlyosbíthatja a globális egyenlőtlenségeket, ha a technológiai befektetések és bevezetések nem közösen elfogadott keretek között valósulnak meg.

A hónap témája

Túl a költségcsökkentésen - felnőtt a felhő

A hurráoptimizmusnak régen vége, a fejlesztések sem technikai köntösben zajlanak már, hanem üzleti, jogi és kockázatkezelési megfontolások dominálnak. Belépőben vagyunk a cloud második korszakába.

a melléklet támogatója a ONE Solutions

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Az ENSZ-főtitkár szerint a szabályozás nem tud lépést tartani az MI fejlődésével

Túl a költségcsökkentésen - felnőtt a felhő

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!