A kitalált szoftverfejlesztő vállalat egy tudományos kísérlet keretében működött. Már ha működésnek lehet nevezni azt a szerencsétlenkedést, amit a tesztelt modellek produkáltak.
Hirdetés
 

A Carnegie Mellon Egyetem kutatócsapata nemrégiben egy igen különleges kísérleti projektet futtatott le. A tudományos teszt lényege az volt, hogy különböző specifikus MI-modelleket (AI Agent) raktak egymás mellé, hogy együtt egy képzeletbeli szoftverfejlesztő cég munkatársaiként dolgozzanak. Ugyan a nagy nyelvi modellekre épülő generatív algoritmusok kapcsán az elmúlt években szűnni nem akaró felhajtás kerekedett, a témát kicsit is szorosabban követő olvasókat bizonyára nem fogja meglepni, hogy a kísérlet látványos kudarccal zárult.   

A The Agent Company néven futó virtuális cég külön weboldalt is kapott, ahol a szakemberek bemutatják a projektet és az abból származó eredményeket. Az OpenAI, az Anthropic, a Google és a Meta ügynökeinek különböző szakterületeken kellett helytállnia, az adott szakmában megszokott feladatok elvégzésével. Például irodai adminisztrátorként meetinget kellett szervezni, pénzügyesként számlákat felvinni a rendszerbe, projektmenedzserként sprintet tervezni stb.

MI nem érteni meló

Az egyetemi kutatócsapat munkáját bemutató tanulmány [PDF] szerint a modellek számtalan hiányosságot mutattak és általában nagyon gyenge eredményeket tudtak felmutatni. Különösen nehezen ment a szervezet más (szintén MI-alapú) munkatársaival való interakció, de könnyen elvesztek bármiben, amihez egy csipetnyi logika vagy józan ész, vagy akár csak az internet használatának alapvető ismerete szükségeltetett volna.

A Business Insider beszámolója szerint a legjobb eredményt az Anthropic által fejlesztett Claude 3.5 Sonnet érte el. A modell ezt a megtisztelő címet úgy érte el, hogy még a rá bízott feladatok negyedét sem tudta kielégítően elvégezni. A nem túl acélos 24 százalékás sikerrátához ráadásul feladatonként átlagosan 30 lépésen keresztül jutott el, ami nemcsak lassúvá, de költségessé is tette működését (egy feladatok elvégzése átlagosan több mint 6 dollárba került).

A Goolge Gemini 2.0 Flash modellje még ennél is több vargabetűvel jutott el végül a megoldásig. Ennek ellenére hiába kellett átlagosan 40 időigényes lépés egy-egy munkafolyamat megoldásához, a sikerráta így is csak 11,4 százalékot mutatott. A mezőny színvonalát pedig jól jelzi, hogy a Gemini még ezzel a nem túl acélos aránnyal is ezüst érmes lett.

A sereghatjó az Amazonhoz köthető Nova Pro v1 lett, amelynek ugyan átlagosan kevesebb mint 20 lépésre volt szüksége egy-egy jó megoldás eléréséhez, ám ezek mindössze 1,7 százalékot tette ki a teljes feladatlistából, azaz a modell a rá bízott munkafolyamatok bő 98 százalékát képtelen volt elvégezni.

Az MI-vállalatnál folyó "munka" minőségére jól rávilágít az a tanulmányban is szereplő eset, amelynek során az ügynöknek kapcsolatba kellett volna lépnie egy bizonyos kollégájával. Az algoritmus azonban nem találta meg a céges chaten az illetőt, ezért egy huszárvágással oldotta meg a dolgot: átnevezett egy másik felhasználót a számára szükséges névre. (Ez mondjuk nem meglepő, hiszen máskor is kapták már csaláson a fejlett modelleket.)

Ez ugyan biztos nem veszi el a munkát

A kísérlet alapján tehát mindenki megnyugodhat, ezek miatt a modellek miatt bizonyosan nem fog egyhamar felmondó levelet kapni. Annyiban azonban nem tekinthető fairnek az MI-céges projekt, hogy ezeket az ügynököket alapvetően a humán munkatársak támogatására igyekeznek használni, és nem utóbbiak leváltására. Más kérdés, hogy egyelőre még ebben a szerepkörben sem a pozitívumok domborodnak ki.

Arra viszont kiválóan rámutat a Carnegie Mellon Egyetem tesztje, hogy érdemes a helyükön kezelni ezeket a fejlesztő techcégek által egekbe dícsért algoritmusokat. A generatív chatbotok ugyanis még most sem sokkal többek, mint egy böhöm nagy autocomplete, ami részben megmagyarázza azt is, miért nem képesek ezek a bizonyos megnyilvánulásaikban szuperintelligensnek tűnő modellek még a legalapvetőbb feladatok elvégzésére sem.

Cloud & big data

Kínát robotok tömege segíti a kereskedelmi háborúban

Győztest még korai lenne hirdetni, ha lesz egyáltalán győztese a dolognak, de egyre inkább úgy tűnik, hogy a robotikai versenyben az amerikaiaknak nem sok választásuk lesz az együttműködésen kívül.
 
Hirdetés

Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?

A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió.

Azok a vállalatok, amelyek gyorsabban, intelligensebben és empatikusabban tudnak reagálni ügyfeleik kérdéseire, összességében értékesebb, hosszabb távú kapcsolatokat építhetnek ki.

a melléklet támogatója a One Solutions

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.