A kitalált szoftverfejlesztő vállalat egy tudományos kísérlet keretében működött. Már ha működésnek lehet nevezni azt a szerencsétlenkedést, amit a tesztelt modellek produkáltak.
Hirdetés
 

A Carnegie Mellon Egyetem kutatócsapata nemrégiben egy igen különleges kísérleti projektet futtatott le. A tudományos teszt lényege az volt, hogy különböző specifikus MI-modelleket (AI Agent) raktak egymás mellé, hogy együtt egy képzeletbeli szoftverfejlesztő cég munkatársaiként dolgozzanak. Ugyan a nagy nyelvi modellekre épülő generatív algoritmusok kapcsán az elmúlt években szűnni nem akaró felhajtás kerekedett, a témát kicsit is szorosabban követő olvasókat bizonyára nem fogja meglepni, hogy a kísérlet látványos kudarccal zárult.   

A The Agent Company néven futó virtuális cég külön weboldalt is kapott, ahol a szakemberek bemutatják a projektet és az abból származó eredményeket. Az OpenAI, az Anthropic, a Google és a Meta ügynökeinek különböző szakterületeken kellett helytállnia, az adott szakmában megszokott feladatok elvégzésével. Például irodai adminisztrátorként meetinget kellett szervezni, pénzügyesként számlákat felvinni a rendszerbe, projektmenedzserként sprintet tervezni stb.

MI nem érteni meló

Az egyetemi kutatócsapat munkáját bemutató tanulmány [PDF] szerint a modellek számtalan hiányosságot mutattak és általában nagyon gyenge eredményeket tudtak felmutatni. Különösen nehezen ment a szervezet más (szintén MI-alapú) munkatársaival való interakció, de könnyen elvesztek bármiben, amihez egy csipetnyi logika vagy józan ész, vagy akár csak az internet használatának alapvető ismerete szükségeltetett volna.

A Business Insider beszámolója szerint a legjobb eredményt az Anthropic által fejlesztett Claude 3.5 Sonnet érte el. A modell ezt a megtisztelő címet úgy érte el, hogy még a rá bízott feladatok negyedét sem tudta kielégítően elvégezni. A nem túl acélos 24 százalékás sikerrátához ráadásul feladatonként átlagosan 30 lépésen keresztül jutott el, ami nemcsak lassúvá, de költségessé is tette működését (egy feladatok elvégzése átlagosan több mint 6 dollárba került).

A Goolge Gemini 2.0 Flash modellje még ennél is több vargabetűvel jutott el végül a megoldásig. Ennek ellenére hiába kellett átlagosan 40 időigényes lépés egy-egy munkafolyamat megoldásához, a sikerráta így is csak 11,4 százalékot mutatott. A mezőny színvonalát pedig jól jelzi, hogy a Gemini még ezzel a nem túl acélos aránnyal is ezüst érmes lett.

A sereghatjó az Amazonhoz köthető Nova Pro v1 lett, amelynek ugyan átlagosan kevesebb mint 20 lépésre volt szüksége egy-egy jó megoldás eléréséhez, ám ezek mindössze 1,7 százalékot tette ki a teljes feladatlistából, azaz a modell a rá bízott munkafolyamatok bő 98 százalékát képtelen volt elvégezni.

Az MI-vállalatnál folyó "munka" minőségére jól rávilágít az a tanulmányban is szereplő eset, amelynek során az ügynöknek kapcsolatba kellett volna lépnie egy bizonyos kollégájával. Az algoritmus azonban nem találta meg a céges chaten az illetőt, ezért egy huszárvágással oldotta meg a dolgot: átnevezett egy másik felhasználót a számára szükséges névre. (Ez mondjuk nem meglepő, hiszen máskor is kapták már csaláson a fejlett modelleket.)

Ez ugyan biztos nem veszi el a munkát

A kísérlet alapján tehát mindenki megnyugodhat, ezek miatt a modellek miatt bizonyosan nem fog egyhamar felmondó levelet kapni. Annyiban azonban nem tekinthető fairnek az MI-céges projekt, hogy ezeket az ügynököket alapvetően a humán munkatársak támogatására igyekeznek használni, és nem utóbbiak leváltására. Más kérdés, hogy egyelőre még ebben a szerepkörben sem a pozitívumok domborodnak ki.

Arra viszont kiválóan rámutat a Carnegie Mellon Egyetem tesztje, hogy érdemes a helyükön kezelni ezeket a fejlesztő techcégek által egekbe dícsért algoritmusokat. A generatív chatbotok ugyanis még most sem sokkal többek, mint egy böhöm nagy autocomplete, ami részben megmagyarázza azt is, miért nem képesek ezek a bizonyos megnyilvánulásaikban szuperintelligensnek tűnő modellek még a legalapvetőbb feladatok elvégzésére sem.

Cloud & big data

A Burger King azt is MI-vel ellenőrizné, hogy mennyire kedves a kiszolgálás

A tengerentúlon még az idén elindul az a pilot program, amelynek során az alkalmazottakat hangvezérelt MI-headsetekkel szerelik fel.
 
Hirdetés

Produktivitás mint stratégiai előny: mit csinálnak másként a sikeres cégek?

A META-INF által szervezett Productivity Day 2026 idén a mesterséges intelligencia és a vállalati produktivitás kapcsolatát helyezi fókuszba. Az esemény középpontjában a META-INF nagyszabású produktivitási kutatásának bemutatása áll, amely átfogó képet nyújt a magyar vállalatok hatékonyságáról és működési kihívásairól.

Vezetői példamutatás és megfelelő oktatás, vállalatikultúra-váltás nélkül gyakorlatilag lehetetlen adatvezérelt működést bevezetni. Cikkünk nemcsak a buktatókról, hanem azok elkerülésének módjairól is szól.

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!

Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.

2026.03.10. UP Rendezvénytér

RÉSZLETEK »

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.