Még a Microsoft kutatói szerint sem szabad vakon bízni az MI-ágensekben

Bitport2026.05.16.Piaci hírek

Legalábbis ami az irodai feladatok delegálását és a rájuk bízott dokumentumokat illeti, mert a hosszabb munkafolyamatok során képesek teljesen tönkretenni azokat.

Bár az MI-fejlesztők folyamatosan sulykolják, hogy az MI-ügynökök milyen hatékonyak (lesznek) a különféle munkafeladatok átvételében, egyelőre még a Microsoft kutatói szerint sem okos dolog fejest ugrani az ilyen jellegű transzformációba. Az IT Pro néhány nappal ezelőtt megjelent cikke egy olyan friss tanulmányt szemléz, amelyben a vállalat három szakembere megállapítja: a hogy a nagy nyelvi modellek (LLM-ek) a hosszú, kiterjedt munkafolyamatok során hajlamosak korrumpálni a dokumentumokat, ami az adatok törléséhez és a jól ismert hallucinatív módosításához vezethet.

Tesztjeik alapján a legfejlettebb modellek, így a Gemini 3.1 Pro, a Claude Opus 4.6 vagy a GPT 5.4, átlagosan a dokumentumok tartalmának 25 százalékát torzították el, más modellek pedig akár fele részben is tönkretették az általuk kezelt anyagokat. A tudósok megállapítják, hogy a delegálás nyilvánvaló feltétele a bizalom. Elemzésük szerint azonban a jelenleg elérhető megoldások rendszeresen hibáznak, csendben rongálva a dokumentumokat, ami a hosszabb interakciók során fel is halmozódik, és az emberi dolgozóknak is rengeteg idejét emészti fel ennek a javítgatása.

Ez így, ebben a formában...

A lap ezzel kapcsolatban a CodeRabbit egyik tanulmányát is idézi, ami megállapítja, hogy a kódolásra használt mesterséges intelligencia valóban gyors, de ugyanilyen üzembiztosan szállítja a hibákat is, egy másik felmérés pedig arra hívja fel a figyelmet, hogy a szoftverfejlesztők fele nemigen ellenőrzi az MI-vel generált kódokat, még tovább súlyosbítva a problémát. Azt egyébként a Microsoft kutatói is megállapították, hogy az LLM-ek jobban teljesítenek a programozásban, mint a természetes nyelvi vagy olyan niche környezetekben, mint amilyen a keresőoptimalizálás vagy a kottaírás.

A tesztek során akkor nyilvánítottak egy-egy modellt alkalmasnak a feladatok delegálására, ha azok 20 interakció során legalább 98 százalékos pontosságot mutattak. Ezt a Gemini 3.1 Pro a vizsgált 52 területből 11 esetben hozta, a többi megoldás pedig még ezt a szintet sem ugrotta meg. Ami biztosnak látszik, hogy az ágensek összességében nem javították a teljesítményt, különösen a nagy terjedelmű anyagokkal való hosszabb interakciós időszakok alatt. Ez számszerűen azt jelenti, hogy a modellek a szimulált folyamatok 80 százalékában legalább 20 százalékosan károsították azokat.

Bár az LLM teljesítményének összehasonlításával mindez javítható, a tudósok szerint kulcsfontosságú szempont, hogy a munkát az MI-hez delegáló felhasználóknak nem feltétlenül van megfelelő szakértelmük vagy elég idejük a mesterséges intelligencia által végrehajtott változtatások részletes áttekintésére, és az a feltételezés is téves, hogy ha az MI jól működik az egyik területen, akkor ugyanolyan megbízható lesz egy másikon is. Általánosságban elmondható, hogy a tevékenységüket érdemes szorosan felügyelni, ami egyelőre nem támasztja alá a hatékonyságnövelésről szóló propagandát.

Részletek az IT Pro oldalán »

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Piaci hírek

Végre lesz egy nyomós érve az okostelefon-gyártóknak a drágításra: az MI

A technológii hamarosan a viselhető eszközökben is általános lesz – akár szeretjük, akár nem.

Hirdetés

Költségcsökkenésből finanszírozott modernizáció

A cloud-native alkalmazások megkövetelik az adatközpontok modernizációját, amihez a SUSE többek között a virtualizációs költségek csökkentésével szabadítana fel jelentős forrásokat.

A hónap témája

Az MI dönt, a robot végrehajt: automatizáció valós példákon

Felhőalapú automatizációs modellek konkrét vállalati felhasználásban - hat folyamat, ahol már bizonyított az AIaaS és az RPAaaS.

a melléklet támogatója a ONE Solutions

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Végre lesz egy nyomós érve az okostelefon-gyártóknak a drágításra: az MI

Az MI dönt, a robot végrehajt: automatizáció valós példákon

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!