Legalábbis ami az irodai feladatok delegálását és a rájuk bízott dokumentumokat illeti, mert a hosszabb munkafolyamatok során képesek teljesen tönkretenni azokat.

Bár az MI-fejlesztők folyamatosan sulykolják, hogy az MI-ügynökök milyen hatékonyak (lesznek) a különféle munkafeladatok átvételében, egyelőre még a Microsoft kutatói szerint sem okos dolog fejest ugrani az ilyen jellegű transzformációba. Az IT Pro néhány nappal ezelőtt megjelent cikke egy olyan friss tanulmányt szemléz, amelyben a vállalat három szakembere megállapítja: a hogy a nagy nyelvi modellek (LLM-ek) a hosszú, kiterjedt munkafolyamatok során hajlamosak korrumpálni a dokumentumokat, ami az adatok törléséhez és a jól ismert hallucinatív módosításához vezethet.

Tesztjeik alapján a legfejlettebb modellek, így a Gemini 3.1 Pro, a Claude Opus 4.6 vagy a GPT 5.4, átlagosan a dokumentumok tartalmának 25 százalékát torzították el, más modellek pedig akár fele részben is tönkretették az általuk kezelt anyagokat. A tudósok megállapítják, hogy a delegálás nyilvánvaló feltétele a bizalom. Elemzésük szerint azonban a jelenleg elérhető megoldások rendszeresen hibáznak, csendben rongálva a dokumentumokat, ami a hosszabb interakciók során fel is halmozódik, és az emberi dolgozóknak is rengeteg idejét emészti fel ennek a javítgatása.

Ez így, ebben a formában...

A lap ezzel kapcsolatban a CodeRabbit egyik tanulmányát is idézi, ami megállapítja, hogy a kódolásra használt mesterséges intelligencia valóban gyors, de ugyanilyen üzembiztosan szállítja a hibákat is, egy másik felmérés pedig arra hívja fel a figyelmet, hogy a szoftverfejlesztők fele nemigen ellenőrzi az MI-vel generált kódokat, még tovább súlyosbítva a problémát. Azt egyébként a Microsoft kutatói is megállapították, hogy az LLM-ek jobban teljesítenek a programozásban, mint a természetes nyelvi vagy olyan niche környezetekben, mint amilyen a keresőoptimalizálás vagy a kottaírás.

A tesztek során akkor nyilvánítottak egy-egy modellt alkalmasnak a feladatok delegálására, ha azok 20 interakció során legalább 98 százalékos pontosságot mutattak. Ezt a Gemini 3.1 Pro a vizsgált 52 területből 11 esetben hozta, a többi megoldás pedig még ezt a szintet sem ugrotta meg. Ami biztosnak látszik, hogy az ágensek összességében nem javították a teljesítményt, különösen a nagy terjedelmű anyagokkal való hosszabb interakciós időszakok alatt. Ez számszerűen azt jelenti, hogy a modellek a szimulált folyamatok 80 százalékában legalább 20 százalékosan károsították azokat.

Bár az LLM teljesítményének összehasonlításával mindez javítható, a tudósok szerint kulcsfontosságú szempont, hogy a munkát az MI-hez delegáló felhasználóknak nem feltétlenül van megfelelő szakértelmük vagy elég idejük a mesterséges intelligencia által végrehajtott változtatások részletes áttekintésére, és az a feltételezés is téves, hogy ha az MI jól működik az egyik területen, akkor ugyanolyan megbízható lesz egy másikon is. Általánosságban elmondható, hogy a tevékenységüket érdemes szorosan felügyelni, ami egyelőre nem támasztja alá a hatékonyságnövelésről szóló propagandát.

Részletek az IT Pro oldalán »

Piaci hírek

Évente több mint 2000 milliárd forintot tapsolunk el webshopokban

A PwC felmérése szerint a hazai online vásárlók körében egyre népszerűbbek a külföldi áruházak, de a belföldi kereslet is egészséges emelkedést mutatott az év első felében.
 
Hirdetés

Szintet lép a Synology: Érkezik a PAS7700 csúcskategóriás vállalati flash tároló

Ahogy a vállalati IT-környezetek az AI-alapú folyamatok, a virtualizáció, a nagy teljesítményű adatbázisok és a folyamatosan elérhető digitális szolgáltatások nyomása alatt fejlődnek, a szervezetek egyre inkább olyan tárolóinfrastruktúrát igényelnek, amely kompromisszumok nélküli teljesítményt, rugalmasságot és skálázhatóságot biztosít.

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.
Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.