A Carnegie Mellon Egyetem kutatócsapata nemrégiben egy igen különleges kísérleti projektet futtatott le. A tudományos teszt lényege az volt, hogy különböző specifikus MI-modelleket (AI Agent) raktak egymás mellé, hogy együtt egy képzeletbeli szoftverfejlesztő cég munkatársaiként dolgozzanak. Ugyan a nagy nyelvi modellekre épülő generatív algoritmusok kapcsán az elmúlt években szűnni nem akaró felhajtás kerekedett, a témát kicsit is szorosabban követő olvasókat bizonyára nem fogja meglepni, hogy a kísérlet látványos kudarccal zárult.
A The Agent Company néven futó virtuális cég külön weboldalt is kapott, ahol a szakemberek bemutatják a projektet és az abból származó eredményeket. Az OpenAI, az Anthropic, a Google és a Meta ügynökeinek különböző szakterületeken kellett helytállnia, az adott szakmában megszokott feladatok elvégzésével. Például irodai adminisztrátorként meetinget kellett szervezni, pénzügyesként számlákat felvinni a rendszerbe, projektmenedzserként sprintet tervezni stb.
MI nem érteni meló
Az egyetemi kutatócsapat munkáját bemutató tanulmány [PDF] szerint a modellek számtalan hiányosságot mutattak és általában nagyon gyenge eredményeket tudtak felmutatni. Különösen nehezen ment a szervezet más (szintén MI-alapú) munkatársaival való interakció, de könnyen elvesztek bármiben, amihez egy csipetnyi logika vagy józan ész, vagy akár csak az internet használatának alapvető ismerete szükségeltetett volna.
A Business Insider beszámolója szerint a legjobb eredményt az Anthropic által fejlesztett Claude 3.5 Sonnet érte el. A modell ezt a megtisztelő címet úgy érte el, hogy még a rá bízott feladatok negyedét sem tudta kielégítően elvégezni. A nem túl acélos 24 százalékás sikerrátához ráadásul feladatonként átlagosan 30 lépésen keresztül jutott el, ami nemcsak lassúvá, de költségessé is tette működését (egy feladatok elvégzése átlagosan több mint 6 dollárba került).
A Goolge Gemini 2.0 Flash modellje még ennél is több vargabetűvel jutott el végül a megoldásig. Ennek ellenére hiába kellett átlagosan 40 időigényes lépés egy-egy munkafolyamat megoldásához, a sikerráta így is csak 11,4 százalékot mutatott. A mezőny színvonalát pedig jól jelzi, hogy a Gemini még ezzel a nem túl acélos aránnyal is ezüst érmes lett.
A sereghatjó az Amazonhoz köthető Nova Pro v1 lett, amelynek ugyan átlagosan kevesebb mint 20 lépésre volt szüksége egy-egy jó megoldás eléréséhez, ám ezek mindössze 1,7 százalékot tette ki a teljes feladatlistából, azaz a modell a rá bízott munkafolyamatok bő 98 százalékát képtelen volt elvégezni.
Az MI-vállalatnál folyó "munka" minőségére jól rávilágít az a tanulmányban is szereplő eset, amelynek során az ügynöknek kapcsolatba kellett volna lépnie egy bizonyos kollégájával. Az algoritmus azonban nem találta meg a céges chaten az illetőt, ezért egy huszárvágással oldotta meg a dolgot: átnevezett egy másik felhasználót a számára szükséges névre. (Ez mondjuk nem meglepő, hiszen máskor is kapták már csaláson a fejlett modelleket.)
Ez ugyan biztos nem veszi el a munkát
A kísérlet alapján tehát mindenki megnyugodhat, ezek miatt a modellek miatt bizonyosan nem fog egyhamar felmondó levelet kapni. Annyiban azonban nem tekinthető fairnek az MI-céges projekt, hogy ezeket az ügynököket alapvetően a humán munkatársak támogatására igyekeznek használni, és nem utóbbiak leváltására. Más kérdés, hogy egyelőre még ebben a szerepkörben sem a pozitívumok domborodnak ki.
Arra viszont kiválóan rámutat a Carnegie Mellon Egyetem tesztje, hogy érdemes a helyükön kezelni ezeket a fejlesztő techcégek által egekbe dícsért algoritmusokat. A generatív chatbotok ugyanis még most sem sokkal többek, mint egy böhöm nagy autocomplete, ami részben megmagyarázza azt is, miért nem képesek ezek a bizonyos megnyilvánulásaikban szuperintelligensnek tűnő modellek még a legalapvetőbb feladatok elvégzésére sem.
Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?
A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak