Még a Microsoft kutatói szerint sem szabad vakon bízni az MI-ágensekben

Bitport2026.05.16.Piaci hírek

Legalábbis ami az irodai feladatok delegálását és a rájuk bízott dokumentumokat illeti, mert a hosszabb munkafolyamatok során képesek teljesen tönkretenni azokat.

Bár az MI-fejlesztők folyamatosan sulykolják, hogy az MI-ügynökök milyen hatékonyak (lesznek) a különféle munkafeladatok átvételében, egyelőre még a Microsoft kutatói szerint sem okos dolog fejest ugrani az ilyen jellegű transzformációba. Az IT Pro néhány nappal ezelőtt megjelent cikke egy olyan friss tanulmányt szemléz, amelyben a vállalat három szakembere megállapítja: a hogy a nagy nyelvi modellek (LLM-ek) a hosszú, kiterjedt munkafolyamatok során hajlamosak korrumpálni a dokumentumokat, ami az adatok törléséhez és a jól ismert hallucinatív módosításához vezethet.

Tesztjeik alapján a legfejlettebb modellek, így a Gemini 3.1 Pro, a Claude Opus 4.6 vagy a GPT 5.4, átlagosan a dokumentumok tartalmának 25 százalékát torzították el, más modellek pedig akár fele részben is tönkretették az általuk kezelt anyagokat. A tudósok megállapítják, hogy a delegálás nyilvánvaló feltétele a bizalom. Elemzésük szerint azonban a jelenleg elérhető megoldások rendszeresen hibáznak, csendben rongálva a dokumentumokat, ami a hosszabb interakciók során fel is halmozódik, és az emberi dolgozóknak is rengeteg idejét emészti fel ennek a javítgatása.

Ez így, ebben a formában...

A lap ezzel kapcsolatban a CodeRabbit egyik tanulmányát is idézi, ami megállapítja, hogy a kódolásra használt mesterséges intelligencia valóban gyors, de ugyanilyen üzembiztosan szállítja a hibákat is, egy másik felmérés pedig arra hívja fel a figyelmet, hogy a szoftverfejlesztők fele nemigen ellenőrzi az MI-vel generált kódokat, még tovább súlyosbítva a problémát. Azt egyébként a Microsoft kutatói is megállapították, hogy az LLM-ek jobban teljesítenek a programozásban, mint a természetes nyelvi vagy olyan niche környezetekben, mint amilyen a keresőoptimalizálás vagy a kottaírás.

A tesztek során akkor nyilvánítottak egy-egy modellt alkalmasnak a feladatok delegálására, ha azok 20 interakció során legalább 98 százalékos pontosságot mutattak. Ezt a Gemini 3.1 Pro a vizsgált 52 területből 11 esetben hozta, a többi megoldás pedig még ezt a szintet sem ugrotta meg. Ami biztosnak látszik, hogy az ágensek összességében nem javították a teljesítményt, különösen a nagy terjedelmű anyagokkal való hosszabb interakciós időszakok alatt. Ez számszerűen azt jelenti, hogy a modellek a szimulált folyamatok 80 százalékában legalább 20 százalékosan károsították azokat.

Bár az LLM teljesítményének összehasonlításával mindez javítható, a tudósok szerint kulcsfontosságú szempont, hogy a munkát az MI-hez delegáló felhasználóknak nem feltétlenül van megfelelő szakértelmük vagy elég idejük a mesterséges intelligencia által végrehajtott változtatások részletes áttekintésére, és az a feltételezés is téves, hogy ha az MI jól működik az egyik területen, akkor ugyanolyan megbízható lesz egy másikon is. Általánosságban elmondható, hogy a tevékenységüket érdemes szorosan felügyelni, ami egyelőre nem támasztja alá a hatékonyságnövelésről szóló propagandát.

Részletek az IT Pro oldalán »

Piaci hírek

Rárúgta az ajtót a tőzsdére a kínai CXMT memóriagyártó

Piaci kapitalizációja alapján már a CXMT a legnagyobb kínai tőzsdén jegyzett vállalat, ami saját várakozásai szerint több mint hétszeresére növelte az első félévben termelt bevételét.

Hirdetés

Öt kérdés, amelyet érdemes feltenni felhőplatform-választás előtt

Egy felhőplatform értékét nemcsak a szolgáltatásai határozzák meg, hanem az is, hogy egy kritikus helyzetben mennyire képes támogatni a vállalat működését.

A hónap témája

Mit kell tenni, amikor beüt a krach?

Előrelátó tervezés és meghatározott menetrend segíti az incidensek minél gyorsabb elhárítását. Ehhez azonban sok feladatot és felelősséget kell tisztázni – még jóval azelőtt, hogy bekövetkezik a baj.

a melléklet támogatója a ONE Solutions

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Rárúgta az ajtót a tőzsdére a kínai CXMT memóriagyártó

Mit kell tenni, amikor beüt a krach?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!