Az MI-modellek képességeinek összehasonlításához használt benchmarkok gyakran félrevezetőek lehetnek, amennyiben gyakran mutatnak hiányosságokat egy-egy olyan területen, ami aláássa a modellek teljesítményére vonatkozó állításaikat. Ettől nem teljesen független, hogy sok vállalat kísérletezik ugyan az MI-alapú ügynökök (agentic AI) alkalmazásával, de a kísérletek többsége elhasal a kontroll elvesztését, az átláthatóság csökkenését vagy a megfelelést érintő aggályokon, a bizalom hiányát pedig jól mutatja az a friss felmérés is, amely szerint a döntéshozók és szoftveres szakemberek fele rizikósnak tartja, hogy az MI-ügynökök bevezetése még tovább súlyosbíthatja a rosszul megvalósított folyamatok és az automatizálás problémáit.
A technológiai ipar ennek ellenére nagy lehetőséget lát az egyes részterületeket az általános modelleknél jobban kezelő, összetett feladatok önálló végrehajtásra képes ágensekben, és mindent megtesz, hogy megkerülhetetlen szereplővé váljon a még csak formálódó területen. A gyakorlati tapasztalatok egyelőre azonban még nem túl biztatóak, ami ráadásul nemcsak abban nyilvánul meg, hogy a legtöbb helyen még csak nem is kísérleteznek MI-ügynökökkel az üzletileg kritikus feladatokon. Az Amazon és az eBay például merőben más megfontolásokból írta ki az ajtajára, hogy nem kér az automatizált vásárlásokból, mivel azok jól felfogott üzleti érdekeiket is sértenék, túl a szóban forgó MI-funkciók sokat emlegetett etikai és biztonsági problémáin.
Visszatérve az MI-ügynökök valós teljesítményének mérhetőségére, a képzési adatokban utazó Mercor legújabb kutatásában azt vizsgálta, hogy a vezető MI-modellek hogyan teljesítenek a tényleges fehérgalléros munkahelyi feladatokban a tanácsadásban, a pénzügyi szektorban vagy a jogi területen. Az alapmodellek ugyanis folyamatos fejlődésük ellenére sem alkottak maradandót a tudásmunkához (knowledge work) sorolt feladatokban, és ennek okai meghatározóak lehetnek az MI-ügynökök valós lehetőségeinek értékelésében is. A Mercor pedig az APEX-Agents benchmark alkalmazásával részben választ is adott a kérdésre, hiszen a mérések során még a legjobb modelleknek sem sikerült a kérdések több mint negyedét helyesen megválaszolnia.
Fejlődnek, de még bőven nem fejlődtek ki
A teljes nevén AI Productivity Index for Agents (APEX-Agents) referencia a fenti ágazatokra jellemző, hosszú távú és az alkalmazásokon átívelő feladatok végrehajtását méri, megkövetelve az MI-ügynököktől a fájlok és eszközök realisztikus munkakörnyezetben való alkalmazását. Az első eredmények pedig azt mutatják, hogy a modellek általában rosszul vagy egyáltalán nem válaszolnak, ami elsősorban a szükséges információk több területen való felkutatásának kudarcára vezethető vissza. A valódi professzionális szolgáltatások mintájára felépített környezetben ugyanis nem érhető el egyetlen forrásból, egy helyen minden kontextus, az ilyen fajta gondolkodás pedig továbbra is "vagy sikerül, vagy nem" a mesterséges intelligenciának.
A Hugging Face-en nyilvánosan is közzétett kérdések között olyan feladatok szerepelnek, amelyekhez át kell rágni és össze kell vetni mondjuk egy vállalat saját belső szabályzatait és a vonatkozó EU-s adatvédelmi törvényeket is. Világos, hogy ha egy nagy nyelvi modell képes lenne megbízhatóan kezelni az ilyen felvetéseket, akkor hatékonyan átvehetné a ma dolgozó jogászok munkájának számottevő részét. Egyelőre azonban nincs szó ilyesmiről, mint ahogy az APEX-Agents az OpenAI GDPval benchmarkjával szemben is megmutatja, hogy az általános ismeretek számos különféle területen való tesztelése nem igazán feleltethető meg annak, mint amikor az MI-nek tartósan kell tevékenykednie a magasan értékelt szakmák egy leszűkített körében.
Ilyen értelemben az APEX-Agents sokkal szigorúbb próbatételt jelent az MI-modelleknek, de azt is sokkal jobban megmutatja, hogy a valóságban mennyire automatizálhatók a szóban forgó feladatok. Az első eredmények pedig mindenképpen elmaradnak a várakozásoktól – igaz, a mesterséges intelligencia sorban gyűri le a kihívást jelentő referenciaértékeket, és az APEX-Agents tesztjének nyilvánosságra hozatalával a fejlesztők erre is rávethetik majd magukat. A Mercor vezérigazgatója a TechCrunch-nak nyilatkozva szintén arról beszélt, hogy "nagyon gyorsan javul a helyzet", és ha az MI-modellek éppen a kérdések negyed részére adnak jó választ, akkor azt ahhoz képest érdemes értékelni, hogy tavaly ilyenkor 5-10 százalékos eredményt értek volna el.
Kérdés, hogy az érdemi üzleti felhasználásban mennyire lesz vevő bárki is a 99,99 százalékosnál gyengébb hatékonyságra.
Az ötlettől az értékteremtésig – az üzleti réteg szerepe az adattudományi működésben
Az adattudomány valódi értéke ott válik láthatóvá, ahol az előrejelzések döntésekké, a döntések pedig mérhető üzleti eredményekké alakulnak. Ehhez azonban tudatos üzleti beágyazásra, mérési keretrendszerekre és következetes visszacsatolásra is szükség van.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!
Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.
2026.03.10. UP Rendezvénytér
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak