Nem tarolta le riválisait az Anthropic nehézsúlyú üdvöskéje

Bitport2026.06.11.Cloud & big data

A kifejezetten az MI-ügynökök valós teljesítményét mérő ALE benchmark toplistáját az OpenAI áprilisban bemutatott GPT-5.5-ös modellje vezeti.

A tényleges eredményességre, a GDP-ben mérhető gazdasági haszonra fókuszáló teljesítménymérő rendszert indított útjára a Kaliforniai Egyetem (Berkeley) kutatócsapata és több mint 300 együttműködő szakértő. Az Agents’ Last Exam (ALE) elnevezésű kezdeményezés lényege, hogy a meglévő, gyakran megtévesztő eredményeket adó, esetleg könnyen manipulálható benchmarkok helyett egy olyan összetett tesztkörnyezetet biztosítson a nagy nyelvi modellekre (LLM) épülő MI-ágenseknek, ahol az ügynököknek valódi teendőket kell valódi munkakörnyezethez hasonló platformon elvégezniük.

Megnehezítik az ügynökök életét

Az ALE kezdetben közel 1500 valódi munkakörökhöz társítható feladatsorral indul, de a távlati cél a portfólió 5000 darabosra bővítése. A benchmark három nehézségi szintbe (Near-Term, Full-Spectrum, Last-Exam) sorolja a munkafolyamatokat. Ezeket úgy lőtték be, hogy a legkönnyebbek egy részével már a jelenleg nyilvánosan elérhető, közepesen erős ágensek is képesek megbirkózni, míg a "végső teszt" esetében egyelőre az is csodaszámba megy, ha egy modell pontot tud szerezni. Utóbbiak már olyan összetett és mély szakmai tudást igényelnek, hogy az ALE megalkotói szerint valamikor 2028 és 2030 között juthatunk el oda, hogy az algoritmusok képesek lesznek az emberekhez mérhető minőségű produkcióra.

Az új teljesítménymérő rendszer kialakításánál különösen figyeltek arra, hogy azt ne lehessen az eddig ismert módokon kijátszani. A korábbi benchmarkok esetében például nagy problémát jelentett, hogy a tesztkérdések egy idő után bekerültek a későbbi modellgenerációk tanítási adatkészletébe, ami miatt az újabb változatok a tényleges képességüknél jobb eredményeket tudtak felmutatni.

Az ALE a fentiek miatt úgy próbál átlátható maradni, hogy közben nem ássa alá a tesztrendszer hosszabb távú integritását. A nyílt forráskódú projekt egyszerre csak adatkészletének nagyjából 10 százalékát teszi elérhetővé. Ez segít a modell fejlesztőinek abban, hogy nagy vonalakban tudják, mire kell számítani a "vizsgán", de nem elégséges ahhoz, hogy a végső eredményt ez érdemben befolyásolja. Különösen úgy nem, hogy a tesztfeladatokat idővel rotálják: a publikus rész elemei kikerülnek a rendszerből, a korábban nem nyilvános munkafolyamatok közül néhány bekerül a szabadon elérhető csoportba, helyüket pedig újakkal töltik fel a szigorúan titkos állományban.

Tolongás a csúcson

Ami a konkrét helyzetet illeti, az igény szerint szűrhető, szűkíthető ranglista összesített változatát 24 százalékos eredményességi mutatóval az OpenAI Codex ügynöke vezeti, amely mögött az fejlesztő áprilisban megjelent GPT 5.5 modellje dolgozik.

Különböző ügynökök és modellek általános teljesítménye az ALE teszjén (forrás: Agents' Last Exam)

Az Anthropic héten megjelent, Mythos-osztályú Claude Fable 5 modellje ugyan nincs sokkal lemaradva a maga 22 százalékával az élharcostól, ám ez az eredmény így is meglepetésnek számít. Egyrészt az OpenAI riválisa az újdonságait bemutató blogposztban nem győzte sorolni a különböző benchmarkokat, amelyeknél a GPT 5.5 rendre alulmaradt a Fable 5-tel szemben. Másrészt a Mythos-osztály bevezetését megelőzte egy szűk tesztkör, ami arra engedett következtetni, hogy az Anthropic boszorkánykonyhájában valami nagyon erőset sikerült kifőzni.

A cég áprilisban tette elérhetővé néhány megbízható ügyfele – pl. a Google és a nagyobb bankok, köztük a JP Morgan, a Goldman Sachs, a Citigroup, a Bank of America és a Morgan Stanley – számára tesztelési céllal a Mythost. A modell olyan hatékonyan mutatott rá az érzékeny informatikai rendszerekben rejlő sebezhetőségre, hogy az valóságos pánikhullámot váltott ki az amerikai bankrendszerben májusban.

A jelek szerint azonban még minden MI-fejlesztőnél van mit javítani, hiszen a legnehezebb besorolású feladatokat egyelőre a legtöbb ügynök 0 százalékos hatékonysággal képes abszolválni. A legjobb eredménnyel itt is a GPT 5.5 büszkélkedhet, de ebben az esetben is mindössze 2,6 százalékos eredményességi rátáról beszélhetünk.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Argentína all-int mondana a mesterséges intelligenciára

Miközben mások éppen lassítanák a technológiai fejlesztések tempóját, az argentin elnök tervei között szerepel a szélsőségesen megengedő szabályozás, a jelentős iparági adókedvezmények bevezetése és az MI-vel működtetett vállalkozások formalizálása.

Hirdetés

Szintet lép a Synology: Érkezik a PAS7700 csúcskategóriás vállalati flash tároló

Ahogy a vállalati IT-környezetek az AI-alapú folyamatok, a virtualizáció, a nagy teljesítményű adatbázisok és a folyamatosan elérhető digitális szolgáltatások nyomása alatt fejlődnek, a szervezetek egyre inkább olyan tárolóinfrastruktúrát igényelnek, amely kompromisszumok nélküli teljesítményt, rugalmasságot és skálázhatóságot biztosít.

A hónap témája

Hogyan vezessük be az MI-t szolgáltatásként?

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Argentína all-int mondana a mesterséges intelligenciára

Hogyan vezessük be az MI-t szolgáltatásként?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!