Legalábbis ami az irodai feladatok delegálását és a rájuk bízott dokumentumokat illeti, mert a hosszabb munkafolyamatok során képesek teljesen tönkretenni azokat.

Bár az MI-fejlesztők folyamatosan sulykolják, hogy az MI-ügynökök milyen hatékonyak (lesznek) a különféle munkafeladatok átvételében, egyelőre még a Microsoft kutatói szerint sem okos dolog fejest ugrani az ilyen jellegű transzformációba. Az IT Pro néhány nappal ezelőtt megjelent cikke egy olyan friss tanulmányt szemléz, amelyben a vállalat három szakembere megállapítja: a hogy a nagy nyelvi modellek (LLM-ek) a hosszú, kiterjedt munkafolyamatok során hajlamosak korrumpálni a dokumentumokat, ami az adatok törléséhez és a jól ismert hallucinatív módosításához vezethet.

Tesztjeik alapján a legfejlettebb modellek, így a Gemini 3.1 Pro, a Claude Opus 4.6 vagy a GPT 5.4, átlagosan a dokumentumok tartalmának 25 százalékát torzították el, más modellek pedig akár fele részben is tönkretették az általuk kezelt anyagokat. A tudósok megállapítják, hogy a delegálás nyilvánvaló feltétele a bizalom. Elemzésük szerint azonban a jelenleg elérhető megoldások rendszeresen hibáznak, csendben rongálva a dokumentumokat, ami a hosszabb interakciók során fel is halmozódik, és az emberi dolgozóknak is rengeteg idejét emészti fel ennek a javítgatása.

Ez így, ebben a formában...

A lap ezzel kapcsolatban a CodeRabbit egyik tanulmányát is idézi, ami megállapítja, hogy a kódolásra használt mesterséges intelligencia valóban gyors, de ugyanilyen üzembiztosan szállítja a hibákat is, egy másik felmérés pedig arra hívja fel a figyelmet, hogy a szoftverfejlesztők fele nemigen ellenőrzi az MI-vel generált kódokat, még tovább súlyosbítva a problémát. Azt egyébként a Microsoft kutatói is megállapították, hogy az LLM-ek jobban teljesítenek a programozásban, mint a természetes nyelvi vagy olyan niche környezetekben, mint amilyen a keresőoptimalizálás vagy a kottaírás.

A tesztek során akkor nyilvánítottak egy-egy modellt alkalmasnak a feladatok delegálására, ha azok 20 interakció során legalább 98 százalékos pontosságot mutattak. Ezt a Gemini 3.1 Pro a vizsgált 52 területből 11 esetben hozta, a többi megoldás pedig még ezt a szintet sem ugrotta meg. Ami biztosnak látszik, hogy az ágensek összességében nem javították a teljesítményt, különösen a nagy terjedelmű anyagokkal való hosszabb interakciós időszakok alatt. Ez számszerűen azt jelenti, hogy a modellek a szimulált folyamatok 80 százalékában legalább 20 százalékosan károsították azokat.

Bár az LLM teljesítményének összehasonlításával mindez javítható, a tudósok szerint kulcsfontosságú szempont, hogy a munkát az MI-hez delegáló felhasználóknak nem feltétlenül van megfelelő szakértelmük vagy elég idejük a mesterséges intelligencia által végrehajtott változtatások részletes áttekintésére, és az a feltételezés is téves, hogy ha az MI jól működik az egyik területen, akkor ugyanolyan megbízható lesz egy másikon is. Általánosságban elmondható, hogy a tevékenységüket érdemes szorosan felügyelni, ami egyelőre nem támasztja alá a hatékonyságnövelésről szóló propagandát.

Részletek az IT Pro oldalán »

Piaci hírek

Végre lesz egy nyomós érve az okostelefon-gyártóknak a drágításra: az MI

A technológii hamarosan a viselhető eszközökben is általános lesz – akár szeretjük, akár nem.
 
Hirdetés

Költségcsökkenésből finanszírozott modernizáció

A cloud-native alkalmazások megkövetelik az adatközpontok modernizációját, amihez a SUSE többek között a virtualizációs költségek csökkentésével szabadítana fel jelentős forrásokat.

Felhőalapú automatizációs modellek konkrét vállalati felhasználásban - hat folyamat, ahol már bizonyított az AIaaS és az RPAaaS.

a melléklet támogatója a ONE Solutions

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.