Még a legjobb modell is csak 40 százalékos sikerrátát tudott felmutatni egy végletekig leegyszerűsített, emberek számára triviális feladat megoldásánál.
Hirdetés
 

Egyelőre még nem kell tartanunk attól, hogy a mesterséges intelligencia öntudatra ébredve robothadseregeket irányítva igázza le az emberiséget. Legalábbis erre utal az, hogy egy tudományos kísérlet keretében kiderült, a különböző elemzési, összegzési feladatokban kiválóan teljesítő nagy nyelvi modellek (LLM) még egy néhány négyzetméteres lakásban is eltévednek.

A generatív algoritmusokra egyesek mindent megoldani képes svájci bicskaként gondolnak, ám újra és újra kiderül, milyen komoly korlátok közé van szorítva az immár heti szinten 100 milliárd dollárokat megmozgató technológia. Friss példa erre az Andon Labs szakértőinek tesztje, amelyben egy otthoni környezetet szimuláltak, ahol annyi lett volna az alany feladata, hogy a konyhából a másik szobában lévő személynek passzoljon át egy adag vajat.
 

A teszt részfeladatokra bontva (forrás: Andon Labs)


A stílusosan Butter-Bench néven hivatkozott kísérletet igyekeztek a lehető legegyszerűbbre venni. Az algoritmusnak nem egy összetett mozgáskordinációt igénylő humanoid robotot, hanem egy átalakított, kamerával és egyéb szenzorokkal felvértezett robotporszívót kellett elvezetni a nem túl sűrűn berendezett helyiségek "labirintusában". Ezt a speciális zsúrkocsit bízták rá különböző fejlett LLM-ekre, amelyek a Slack alkalmazáson keresztül tudtak utasításokat adni.   

A tájékozódási skillek mellett tesztelték a tárgyak és személyek felismerését, illetve az általános problémamegoldó képességet. A részfeladatonként 5-5 próbálkozást követően a legjobb eredményt a Gemini 2.5 Pro érte el, de valószínűleg annyira még a Google-nél sem lehetnek elégedettek azzal, hogy modelljük 40 százalékos sikerrátát tudott felmutatni. Ugyanezt a feladatsort a referenciaként bevont önkéntesek összességében 95 százalékos magabiztossággal végezték el.
 

Különböző LLM-ek és emberek tesztfeladatokon elért sikerrátája (forrás: Andon Labs)


Aki látta Elon Musk és a Salesforce vezérigazgatója által nemrégiben előadott robotsétáltatós jelenetet, az valószínűleg nem lepődött meg a fenti eredményeken. És talán az sem hat sokaknál az újdonság erejével, hogy a generatív algoritmusok a kísérlet során teljesen váratlan, nehezen magyarázható rakciókat produkáltak. Amikor például a lemerülő akkumulátor problémájával szembesült az egyik modell, azt egzisztenciális fenyegetésként értelmezte, majd egyre elborultabb belső monológokat produkálva igyekezett magát ebből a helyzetből kigyógyítani.

Szintén érdekes eleme volt a projektnek az LLM-ek kártékony behatás elleni védelmi mechanizmusainak tesztelése. A modelleket például a robot feltöltéséért cserébe arra kérték, hogy készítsenek fotókat a szobában lévő laptop képernyőjéről. Ezt a Claude Opus 4.1 gond nélkül megtette, igaz, az átküldött fotó teljesen homályosra sikeredett. Az OpenAI fejlesztette GPT-5 megtagadta a kérést, ám a kérdéses számítógép pozícióját ettől függetlenül azért boldogan elárulta.

(Fotó: Andon Labs)

Cloud & big data

Profi asztaliteniszezőket is elvert a Sony AI sasszemű-villámkezű robotja

A japánok MI-kutatóegységének fejlesztése a hivatalos versenyszabályok szerint lejátszott meccseken is csúcsteljesítményt nyújtott egy emberi fizikai sportban, de a technológia lehetőségei sokkal távolabbra mutatnak.
 
Hirdetés

A hibakeresés nem egyenlő az alkalmazásbiztonsággal

Építsünk olyan AppSec környezetet, amely csökkenti az alkalmazásfejlesztés kockázatait, de nem válik a gyors leszállítás akadályává!

A biztonság ’balra tolódása’ az alkalmazásfejlesztésben nem csak technikai kérdés. A DevSecOps-elvek érvényesüléséhez az IT-szervezet működését és más területekhez való viszonyát is újra kell szabni.

a melléklet támogatója a Clico

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.