A kitalált szoftverfejlesztő vállalat egy tudományos kísérlet keretében működött. Már ha működésnek lehet nevezni azt a szerencsétlenkedést, amit a tesztelt modellek produkáltak.
Hirdetés
 

A Carnegie Mellon Egyetem kutatócsapata nemrégiben egy igen különleges kísérleti projektet futtatott le. A tudományos teszt lényege az volt, hogy különböző specifikus MI-modelleket (AI Agent) raktak egymás mellé, hogy együtt egy képzeletbeli szoftverfejlesztő cég munkatársaiként dolgozzanak. Ugyan a nagy nyelvi modellekre épülő generatív algoritmusok kapcsán az elmúlt években szűnni nem akaró felhajtás kerekedett, a témát kicsit is szorosabban követő olvasókat bizonyára nem fogja meglepni, hogy a kísérlet látványos kudarccal zárult.   

A The Agent Company néven futó virtuális cég külön weboldalt is kapott, ahol a szakemberek bemutatják a projektet és az abból származó eredményeket. Az OpenAI, az Anthropic, a Google és a Meta ügynökeinek különböző szakterületeken kellett helytállnia, az adott szakmában megszokott feladatok elvégzésével. Például irodai adminisztrátorként meetinget kellett szervezni, pénzügyesként számlákat felvinni a rendszerbe, projektmenedzserként sprintet tervezni stb.

MI nem érteni meló

Az egyetemi kutatócsapat munkáját bemutató tanulmány [PDF] szerint a modellek számtalan hiányosságot mutattak és általában nagyon gyenge eredményeket tudtak felmutatni. Különösen nehezen ment a szervezet más (szintén MI-alapú) munkatársaival való interakció, de könnyen elvesztek bármiben, amihez egy csipetnyi logika vagy józan ész, vagy akár csak az internet használatának alapvető ismerete szükségeltetett volna.

A Business Insider beszámolója szerint a legjobb eredményt az Anthropic által fejlesztett Claude 3.5 Sonnet érte el. A modell ezt a megtisztelő címet úgy érte el, hogy még a rá bízott feladatok negyedét sem tudta kielégítően elvégezni. A nem túl acélos 24 százalékás sikerrátához ráadásul feladatonként átlagosan 30 lépésen keresztül jutott el, ami nemcsak lassúvá, de költségessé is tette működését (egy feladatok elvégzése átlagosan több mint 6 dollárba került).

A Goolge Gemini 2.0 Flash modellje még ennél is több vargabetűvel jutott el végül a megoldásig. Ennek ellenére hiába kellett átlagosan 40 időigényes lépés egy-egy munkafolyamat megoldásához, a sikerráta így is csak 11,4 százalékot mutatott. A mezőny színvonalát pedig jól jelzi, hogy a Gemini még ezzel a nem túl acélos aránnyal is ezüst érmes lett.

A sereghatjó az Amazonhoz köthető Nova Pro v1 lett, amelynek ugyan átlagosan kevesebb mint 20 lépésre volt szüksége egy-egy jó megoldás eléréséhez, ám ezek mindössze 1,7 százalékot tette ki a teljes feladatlistából, azaz a modell a rá bízott munkafolyamatok bő 98 százalékát képtelen volt elvégezni.

Az MI-vállalatnál folyó "munka" minőségére jól rávilágít az a tanulmányban is szereplő eset, amelynek során az ügynöknek kapcsolatba kellett volna lépnie egy bizonyos kollégájával. Az algoritmus azonban nem találta meg a céges chaten az illetőt, ezért egy huszárvágással oldotta meg a dolgot: átnevezett egy másik felhasználót a számára szükséges névre. (Ez mondjuk nem meglepő, hiszen máskor is kapták már csaláson a fejlett modelleket.)

Ez ugyan biztos nem veszi el a munkát

A kísérlet alapján tehát mindenki megnyugodhat, ezek miatt a modellek miatt bizonyosan nem fog egyhamar felmondó levelet kapni. Annyiban azonban nem tekinthető fairnek az MI-céges projekt, hogy ezeket az ügynököket alapvetően a humán munkatársak támogatására igyekeznek használni, és nem utóbbiak leváltására. Más kérdés, hogy egyelőre még ebben a szerepkörben sem a pozitívumok domborodnak ki.

Arra viszont kiválóan rámutat a Carnegie Mellon Egyetem tesztje, hogy érdemes a helyükön kezelni ezeket a fejlesztő techcégek által egekbe dícsért algoritmusokat. A generatív chatbotok ugyanis még most sem sokkal többek, mint egy böhöm nagy autocomplete, ami részben megmagyarázza azt is, miért nem képesek ezek a bizonyos megnyilvánulásaikban szuperintelligensnek tűnő modellek még a legalapvetőbb feladatok elvégzésére sem.

Cloud & big data

Itt a HP és a Google hiperszuper 3D-s konferenciarendszere

A nagyvállalati felhasználásra szánt eszköz 25 ezer dolláros áron kerül majd forgalomba, de erre még pluszban jön a szoftver és a szolgáltatás díja.
 
A digitális támadások célpontjai ma már nem feltétlenül azok a vállalatok, amelyektől a támadók adatokat vagy pénzt akarnak szerezni. Elég, ha a támadás egyik láncszeme nem védett – az elkövetők ezen keresztül lépnek be a rendszerbe. És ez a láncszem gyakran nem is belül van.

a melléklet támogatója a One Solutions

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.