A kitalált szoftverfejlesztő vállalat egy tudományos kísérlet keretében működött. Már ha működésnek lehet nevezni azt a szerencsétlenkedést, amit a tesztelt modellek produkáltak.

A Carnegie Mellon Egyetem kutatócsapata nemrégiben egy igen különleges kísérleti projektet futtatott le. A tudományos teszt lényege az volt, hogy különböző specifikus MI-modelleket (AI Agent) raktak egymás mellé, hogy együtt egy képzeletbeli szoftverfejlesztő cég munkatársaiként dolgozzanak. Ugyan a nagy nyelvi modellekre épülő generatív algoritmusok kapcsán az elmúlt években szűnni nem akaró felhajtás kerekedett, a témát kicsit is szorosabban követő olvasókat bizonyára nem fogja meglepni, hogy a kísérlet látványos kudarccal zárult.   

A The Agent Company néven futó virtuális cég külön weboldalt is kapott, ahol a szakemberek bemutatják a projektet és az abból származó eredményeket. Az OpenAI, az Anthropic, a Google és a Meta ügynökeinek különböző szakterületeken kellett helytállnia, az adott szakmában megszokott feladatok elvégzésével. Például irodai adminisztrátorként meetinget kellett szervezni, pénzügyesként számlákat felvinni a rendszerbe, projektmenedzserként sprintet tervezni stb.

MI nem érteni meló

Az egyetemi kutatócsapat munkáját bemutató tanulmány [PDF] szerint a modellek számtalan hiányosságot mutattak és általában nagyon gyenge eredményeket tudtak felmutatni. Különösen nehezen ment a szervezet más (szintén MI-alapú) munkatársaival való interakció, de könnyen elvesztek bármiben, amihez egy csipetnyi logika vagy józan ész, vagy akár csak az internet használatának alapvető ismerete szükségeltetett volna.

A Business Insider beszámolója szerint a legjobb eredményt az Anthropic által fejlesztett Claude 3.5 Sonnet érte el. A modell ezt a megtisztelő címet úgy érte el, hogy még a rá bízott feladatok negyedét sem tudta kielégítően elvégezni. A nem túl acélos 24 százalékás sikerrátához ráadásul feladatonként átlagosan 30 lépésen keresztül jutott el, ami nemcsak lassúvá, de költségessé is tette működését (egy feladatok elvégzése átlagosan több mint 6 dollárba került).

A Goolge Gemini 2.0 Flash modellje még ennél is több vargabetűvel jutott el végül a megoldásig. Ennek ellenére hiába kellett átlagosan 40 időigényes lépés egy-egy munkafolyamat megoldásához, a sikerráta így is csak 11,4 százalékot mutatott. A mezőny színvonalát pedig jól jelzi, hogy a Gemini még ezzel a nem túl acélos aránnyal is ezüst érmes lett.

A sereghatjó az Amazonhoz köthető Nova Pro v1 lett, amelynek ugyan átlagosan kevesebb mint 20 lépésre volt szüksége egy-egy jó megoldás eléréséhez, ám ezek mindössze 1,7 százalékot tette ki a teljes feladatlistából, azaz a modell a rá bízott munkafolyamatok bő 98 százalékát képtelen volt elvégezni.

Az MI-vállalatnál folyó "munka" minőségére jól rávilágít az a tanulmányban is szereplő eset, amelynek során az ügynöknek kapcsolatba kellett volna lépnie egy bizonyos kollégájával. Az algoritmus azonban nem találta meg a céges chaten az illetőt, ezért egy huszárvágással oldotta meg a dolgot: átnevezett egy másik felhasználót a számára szükséges névre. (Ez mondjuk nem meglepő, hiszen máskor is kapták már csaláson a fejlett modelleket.)

Ez ugyan biztos nem veszi el a munkát

A kísérlet alapján tehát mindenki megnyugodhat, ezek miatt a modellek miatt bizonyosan nem fog egyhamar felmondó levelet kapni. Annyiban azonban nem tekinthető fairnek az MI-céges projekt, hogy ezeket az ügynököket alapvetően a humán munkatársak támogatására igyekeznek használni, és nem utóbbiak leváltására. Más kérdés, hogy egyelőre még ebben a szerepkörben sem a pozitívumok domborodnak ki.

Arra viszont kiválóan rámutat a Carnegie Mellon Egyetem tesztje, hogy érdemes a helyükön kezelni ezeket a fejlesztő techcégek által egekbe dícsért algoritmusokat. A generatív chatbotok ugyanis még most sem sokkal többek, mint egy böhöm nagy autocomplete, ami részben megmagyarázza azt is, miért nem képesek ezek a bizonyos megnyilvánulásaikban szuperintelligensnek tűnő modellek még a legalapvetőbb feladatok elvégzésére sem.

Cloud & big data

Egyelőre szépen zakatol a Foxconn motorja

A világ legjelentősebb elektronikai bérgyártójának üzleti eredményeiből általában jó következtetéseket lehet tenni a teljes techniológiai szektor állapotára is. Eszerint egyelőre minden oké, de a helyzet könnyen változhat.
 
Hirdetés

Így újult meg Magyarország leggyorsabb mobilhálózata

Közel 100 milliárd forintos beruházással, a rádiós és maghálózat teljes modernizációjával zárult le a Yettel történetének egyik legnagyobb műszaki fejlesztése.

A kompromittált rendszerek, a dark weben felbukkanó ügyféladatok vagy a zsarolóvírus-kampányok következményei már a vezérigazgatói és pénzügyi igazgatói irodában csapódnak le – jogi, reputációs és üzleti szinten is. Lehet és kell is védekezni ellene.
Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.