Még a legjobb modell is csak 40 százalékos sikerrátát tudott felmutatni egy végletekig leegyszerűsített, emberek számára triviális feladat megoldásánál.
Hirdetés
 

Egyelőre még nem kell tartanunk attól, hogy a mesterséges intelligencia öntudatra ébredve robothadseregeket irányítva igázza le az emberiséget. Legalábbis erre utal az, hogy egy tudományos kísérlet keretében kiderült, a különböző elemzési, összegzési feladatokban kiválóan teljesítő nagy nyelvi modellek (LLM) még egy néhány négyzetméteres lakásban is eltévednek.

A generatív algoritmusokra egyesek mindent megoldani képes svájci bicskaként gondolnak, ám újra és újra kiderül, milyen komoly korlátok közé van szorítva az immár heti szinten 100 milliárd dollárokat megmozgató technológia. Friss példa erre az Andon Labs szakértőinek tesztje, amelyben egy otthoni környezetet szimuláltak, ahol annyi lett volna az alany feladata, hogy a konyhából a másik szobában lévő személynek passzoljon át egy adag vajat.
 

A teszt részfeladatokra bontva (forrás: Andon Labs)


A stílusosan Butter-Bench néven hivatkozott kísérletet igyekeztek a lehető legegyszerűbbre venni. Az algoritmusnak nem egy összetett mozgáskordinációt igénylő humanoid robotot, hanem egy átalakított, kamerával és egyéb szenzorokkal felvértezett robotporszívót kellett elvezetni a nem túl sűrűn berendezett helyiségek "labirintusában". Ezt a speciális zsúrkocsit bízták rá különböző fejlett LLM-ekre, amelyek a Slack alkalmazáson keresztül tudtak utasításokat adni.   

A tájékozódási skillek mellett tesztelték a tárgyak és személyek felismerését, illetve az általános problémamegoldó képességet. A részfeladatonként 5-5 próbálkozást követően a legjobb eredményt a Gemini 2.5 Pro érte el, de valószínűleg annyira még a Google-nél sem lehetnek elégedettek azzal, hogy modelljük 40 százalékos sikerrátát tudott felmutatni. Ugyanezt a feladatsort a referenciaként bevont önkéntesek összességében 95 százalékos magabiztossággal végezték el.
 

Különböző LLM-ek és emberek tesztfeladatokon elért sikerrátája (forrás: Andon Labs)


Aki látta Elon Musk és a Salesforce vezérigazgatója által nemrégiben előadott robotsétáltatós jelenetet, az valószínűleg nem lepődött meg a fenti eredményeken. És talán az sem hat sokaknál az újdonság erejével, hogy a generatív algoritmusok a kísérlet során teljesen váratlan, nehezen magyarázható rakciókat produkáltak. Amikor például a lemerülő akkumulátor problémájával szembesült az egyik modell, azt egzisztenciális fenyegetésként értelmezte, majd egyre elborultabb belső monológokat produkálva igyekezett magát ebből a helyzetből kigyógyítani.

Szintén érdekes eleme volt a projektnek az LLM-ek kártékony behatás elleni védelmi mechanizmusainak tesztelése. A modelleket például a robot feltöltéséért cserébe arra kérték, hogy készítsenek fotókat a szobában lévő laptop képernyőjéről. Ezt a Claude Opus 4.1 gond nélkül megtette, igaz, az átküldött fotó teljesen homályosra sikeredett. Az OpenAI fejlesztette GPT-5 megtagadta a kérést, ám a kérdéses számítógép pozícióját ettől függetlenül azért boldogan elárulta.

(Fotó: Andon Labs)

Cloud & big data

A CIO Budapest bemutatja: jó gyakorlatok mesterséges intelligenciához

Aktuális témák, esettanulmányok és stratégiai kérdések egyaránt terítékre kerülnek november 11-én a 10., jubileumi CIO Budapesten.
 
A vállalati IT-költések a hagyományos, tőkebefektetésen alapuló modellről egyre inkább a szolgáltatásalapú, üzemeltetési költségekre épülő megközelítés felé tolódnak el. Utóbbi rugalmasabb, azonban a teljes birtoklási költség sokszor csak utólag válik láthatóvá.

a melléklet támogatója a 4iG

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.