Frissült a mesterséges általános intelligencia eléréséhez vezető utat mérő ARC-AGI teszt. Ezen a legfejlettebb nagy nyelvi modellek is úgy buktak meg, hogy csak füstölt.
Hirdetés
 

Aki már a centit vágja az emberi, sőt emberfeletti kognitív képességekkel bíró algoritmusok megjelenéséig, az valószínűleg csalódottan fogadja majd azokat az eredményeket, amelyeket a világ jelenleg legjobbnak tartott modelljei produkáltak az Arc Prize Fundation frissített benchmarkján.

A nonprofit szervezet által alkotott ARC-AGI teszt azt próbálja megmérni, hol tartanak az egyes megoldások a mesterséges általános intelligencia (Artificial General Intelligence – AGI) eléréséhez vezető úton. Az emberek logikus gondolkodására, mintafelismerésére, intuíciójára építő benchmark első változata még 2019-ben készült, és egészen tavaly decemberig megugorhatatlannak bizonyult. Akkor azonban az OpenAI legújabb modellje, a teljes gőzzel működő o3 87,5 százalékot ért el, ami felette van a készítők által az emberi teljesítmény minimumjaként meghatározott 85 százalékos szintnek.

Az évek során felgyűlt tapasztalatokra támaszkodva azonban elkészült az ARC-AGI második generációja, aminél igyekeztek több olyan elemet is megváltoztatni, ami potenciálisan kijátszható. Ide tartoznak azok a próbák, amelyek megfelelően nagy erőforrással és időbefektetéssel megoldhatók az algoritmusok számára, ám az ilyen brute force módszereknek semmi közük a mérni kívánt képességekhez.

Mint kiderült, a nyitóképünkön látható, a korábbinál összetettebb, ám emberek számára továbbra is különösebb gond nélkül megoldható feladatokkal gyakorlatilag semmit nem tudnak kezdeni a világ legfejlettebb nagy nyelvi modelljei. Beszédes, hogy a legjobb eredményt o3-low mindössze 4 százalékot ért el. Az OpenAI legfejlettebb modelljéhez képest a többiek még gyatrább értékelést kapta: a Google Gemini 2.0 Flash és a DeepSeek R1 egyaránt 1,3 százalékot ért el, míg az Anthropic üdvöskéje, a Claude 3.7 mindössze 0,9 százalékot ért el.

Ott vagyunk már?

Az eredmények rávilágítanak arra, mennyire nem érdemes sokat beleképzelni abba, ha egy generatív modelltől PhD-szintű válaszok érkeznek a felvetett kérdéseinkre. Jelenleg ezek az algoritmusok nem sokkal többek egy felturbózott keresőnél, amelyek úgy pakolnak egyre meggyőzőbben egymás mellé karaktereket, képpontokat, hangokat, hogy semmiféle gondolkodási képességgel nem bírnak.

Az AGI elérésével kapcsolatos kérdések folyamatosan terítéken vannak. A tudományos világban azonban nem csupán abban nincs egyetértés, hogy ez mikor valósulhat meg, hanem az is vita tárgyát képezi, hogy mindez egyáltalán elérhető-e a jelenleg rendelkezésre álló technológiákra támaszkodva. Egyesek tudósok szerint a nagy nyelvi modellek (LLM) teljes zsákutcának tekinthetők az AGI szempontjából, miközben mások, mint például az OpenAI vezérigazgatója ennek ellenkezőjét hangoztatják. Sam Altman szerint cégénél már világosan látják az emberi képességeket tükröző vagy azokat túl is haladó mesterséges általános intelligencia felépítéséhez vezető utat.

Ehhez képest a gyakorlati tapasztalatok egyelőre nem sokban támasztják alá a befektetőknek szóló sikerpropagandát. Az ARC-AGI 2-höz kötődő gyászos benchmark-eredmények mellett más kutatások is arra jutottak, hogy a legkifinomultabbnak mondott LLM-ek is elhasalnak az egyszerű, általunk könnyen megoldható logikai feladványokon, beleértve az OpenAI tavaly debütált, emberszerű következtetési képességekkel jellemzett o1 modelljét is.

(Illusztráció: egy tesztpélda az ARC-AGI 2 benchmarkból; Forrás: Arc Prize Fundation)

Cloud & big data

Nem ájultak el tőle a befektetők, hogy a Meta is a zárt MI felé fordulna

A Bloomberg riportja szerint Mark Zuckerberg ejtené a nyílt forrású megközelítést, miközben a Meta következő generációs modelljének fejlesztéséhez a kínai technológiát is segítségül hívják.
 
Sok szervezet adatvezéreltnek tartja magát, mert van BI rendszere és heti dashboardja. A valóságban azonban ennél többről van szó; a kérdés ugyanis nem az, hogy van-e elég adat, hanem, hogy mennyire jól használják a döntések meghozatalához.

a melléklet támogatója a One Solutions

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!

Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.

2026.03.10. UP Rendezvénytér

RÉSZLETEK »

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.