Frissült a mesterséges általános intelligencia eléréséhez vezető utat mérő ARC-AGI teszt. Ezen a legfejlettebb nagy nyelvi modellek is úgy buktak meg, hogy csak füstölt.
Hirdetés
 

Aki már a centit vágja az emberi, sőt emberfeletti kognitív képességekkel bíró algoritmusok megjelenéséig, az valószínűleg csalódottan fogadja majd azokat az eredményeket, amelyeket a világ jelenleg legjobbnak tartott modelljei produkáltak az Arc Prize Fundation frissített benchmarkján.

A nonprofit szervezet által alkotott ARC-AGI teszt azt próbálja megmérni, hol tartanak az egyes megoldások a mesterséges általános intelligencia (Artificial General Intelligence – AGI) eléréséhez vezető úton. Az emberek logikus gondolkodására, mintafelismerésére, intuíciójára építő benchmark első változata még 2019-ben készült, és egészen tavaly decemberig megugorhatatlannak bizonyult. Akkor azonban az OpenAI legújabb modellje, a teljes gőzzel működő o3 87,5 százalékot ért el, ami felette van a készítők által az emberi teljesítmény minimumjaként meghatározott 85 százalékos szintnek.

Az évek során felgyűlt tapasztalatokra támaszkodva azonban elkészült az ARC-AGI második generációja, aminél igyekeztek több olyan elemet is megváltoztatni, ami potenciálisan kijátszható. Ide tartoznak azok a próbák, amelyek megfelelően nagy erőforrással és időbefektetéssel megoldhatók az algoritmusok számára, ám az ilyen brute force módszereknek semmi közük a mérni kívánt képességekhez.

Mint kiderült, a nyitóképünkön látható, a korábbinál összetettebb, ám emberek számára továbbra is különösebb gond nélkül megoldható feladatokkal gyakorlatilag semmit nem tudnak kezdeni a világ legfejlettebb nagy nyelvi modelljei. Beszédes, hogy a legjobb eredményt o3-low mindössze 4 százalékot ért el. Az OpenAI legfejlettebb modelljéhez képest a többiek még gyatrább értékelést kapta: a Google Gemini 2.0 Flash és a DeepSeek R1 egyaránt 1,3 százalékot ért el, míg az Anthropic üdvöskéje, a Claude 3.7 mindössze 0,9 százalékot ért el.

Ott vagyunk már?

Az eredmények rávilágítanak arra, mennyire nem érdemes sokat beleképzelni abba, ha egy generatív modelltől PhD-szintű válaszok érkeznek a felvetett kérdéseinkre. Jelenleg ezek az algoritmusok nem sokkal többek egy felturbózott keresőnél, amelyek úgy pakolnak egyre meggyőzőbben egymás mellé karaktereket, képpontokat, hangokat, hogy semmiféle gondolkodási képességgel nem bírnak.

Az AGI elérésével kapcsolatos kérdések folyamatosan terítéken vannak. A tudományos világban azonban nem csupán abban nincs egyetértés, hogy ez mikor valósulhat meg, hanem az is vita tárgyát képezi, hogy mindez egyáltalán elérhető-e a jelenleg rendelkezésre álló technológiákra támaszkodva. Egyesek tudósok szerint a nagy nyelvi modellek (LLM) teljes zsákutcának tekinthetők az AGI szempontjából, miközben mások, mint például az OpenAI vezérigazgatója ennek ellenkezőjét hangoztatják. Sam Altman szerint cégénél már világosan látják az emberi képességeket tükröző vagy azokat túl is haladó mesterséges általános intelligencia felépítéséhez vezető utat.

Ehhez képest a gyakorlati tapasztalatok egyelőre nem sokban támasztják alá a befektetőknek szóló sikerpropagandát. Az ARC-AGI 2-höz kötődő gyászos benchmark-eredmények mellett más kutatások is arra jutottak, hogy a legkifinomultabbnak mondott LLM-ek is elhasalnak az egyszerű, általunk könnyen megoldható logikai feladványokon, beleértve az OpenAI tavaly debütált, emberszerű következtetési képességekkel jellemzett o1 modelljét is.

(Illusztráció: egy tesztpélda az ARC-AGI 2 benchmarkból; Forrás: Arc Prize Fundation)

Cloud & big data

Itt a HP és a Google hiperszuper 3D-s konferenciarendszere

A nagyvállalati felhasználásra szánt eszköz 25 ezer dolláros áron kerül majd forgalomba, de erre még pluszban jön a szoftver és a szolgáltatás díja.
 
A digitális támadások célpontjai ma már nem feltétlenül azok a vállalatok, amelyektől a támadók adatokat vagy pénzt akarnak szerezni. Elég, ha a támadás egyik láncszeme nem védett – az elkövetők ezen keresztül lépnek be a rendszerbe. És ez a láncszem gyakran nem is belül van.

a melléklet támogatója a One Solutions

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.