Kiderült, hogy a legjobb MI-ügynök is tök béna lenne távmunkásnak

Bitport2025.11.01.Közösség & HR

Egy frissen közölt kutatásban azt próbálták értékelni, hogy a mesterséges intelligencia ágensei mennyire képesek automatizálni a gazdaságilag értékes feladatokat. Az eredmények alapján nem valami fényesen.

Hirdetés

A mesterséges intelligenciának az emberi munka automatizálását érintő képességei miatt aktuális lenne, hogy szabványosított, empirikus módszerekkel vizsgáljuk az MI-automatizálás fejlődését és a technológia munkaerőre gyakorolt hatás. A valós gazdasági tevékenységen alapuló, megbízható mérőszámok nélkül ugyanis nehéz lesz kezelni a dolgot: bár az MI-rendszerek gyors fejlődést mutatnak számos referenciaértéket illetően, az továbbra sem világos, hogyan fordíthatók le ezek az eredmények a gazdaságilag értékes munka elvégzésére – olvasható a nonprofit Center for AI Safety (CAIS) és a Scale AI munkatársai által közzétett kutatásban.

Ahogy írják, a szóban forgó referenciaértékek olyan a speciális készségekben mérik a teljesítményt, mint a szoftverkódolás, más esetekben pedig az egyszerűbb, megosztott feladatokra összpontosítanak. Bár ezeket értékes visszajelzéseknek tartják, úgy ítélik meg, hogy önmagukban nem sok közük van a távmunka tágabb környezetében rejlő sokszínűséghez és összetettséghez, vagyis csak korlátozott betekintést nyújt az emberi munka automatizálásának fejlődésébe. A kutatók az általuk kidolgozott benchmark alapján hat fejlett MI-ügynököt teszteltek szimulált szabadúszó (távmunkás) feladatokkal, az eredmények pedig nem meglepő módon lesújtóak lettek.

Erről nem volt szó a nagy felhajtásban

Mint kiderült, egyetlen MI-ágens sem volt képes többet elvégezni a munka 3 százalékánál, így a lehetséges 143 991 dollárból csak1810 dollárt kerestek. A Remote Labor Index benchmark a valós projekteket használ a botok teljesítményének értékelésére olyan iparágakban, mint a játékfejlesztés és az adatelemzés, és eddig igazolta azokat a történeteket, amelyek szerint sok helyen kénytelenek felvenni az MI-vel helyettesített alkalmazottakat, amikor szembesülnek az új eszközök hatékony(talan)ságával. A legjobban teljesítő MI-ügynök is csak a feladatainak 2,5 százalékát tudta olyan szinten elvégezni, ami egy valódi megbízásos munka esetén elfogadható lenne.

A CAIS igazgatója a Wired magazin cikkében arról beszélt, hogy a terület gyors fejlődése ellenére bizonyos hibák makacsul meghatározzák a mesterségesintelligencia-ügynökök működését. Nincsen például hosszú távú memóriájuk, és így a tapasztalatokból sem tudnak folyamatosan tanulni, nem tudnak az emberekhez hasonlóan készségeket elsajátítani a munkavégzés során, mint az emberek. A Scale AI kutatási igazgatója szerint éve óta zajlik a vita az MI munkahelyi szerepéről, de jórészt csak hipotetikus vagy elméleti szinten: valójában úgy szüntetik meg az emberek által betöltött pozíciókat, hogy nem tudni, hova vezet az emberi tehetség hiánya.

Az MIT egy másik kutatásáról, amely szerint a túlzott elvárásokkal és a hibás integrációs megközelítések miatt elképesztő arányban fuccsolnak be az MI-projektek, itt írtunk részletesen »

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Közösség & HR

Az NBA is mesterséges intelligenciával nyűgözné le a kosaras szurkolókat

Az AWS-szel bejelentett együttműködés olyan valós idejű statisztikákat és elemzéseket tenne elérhetővé minden előfizetőnek, amelyekhez eddig csak a szakmai stábok férhettek hozzá.

Hirdetés

Az end-to-end védelmeké a jövő

A kódbiztonság integrálásával új fejlődési szakaszukba léptek a felhős védelmi platformok. Werner Obringot, a Clico Hungary cloud security architektjét kérdeztük a miértekről és hogyanokról.

A hónap témája

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

A biztonsági megoldásszállítók érthető módon egy irányba mozdulnak, hiszen ugyanazoknak a támadásoknak az ellenszerét keresik. Megoldási javaslataikban sokszor csak árnyalatnyiak a különbségek, ami egyszerre könnyíti és nehezíti a választást.

a melléklet támogatója a Clico Hungary

CIO Podcast

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Az NBA is mesterséges intelligenciával nyűgözné le a kosaras szurkolókat

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia