
Bár az MI-fejlesztők folyamatosan sulykolják, hogy az MI-ügynökök milyen hatékonyak (lesznek) a különféle munkafeladatok átvételében, egyelőre még a Microsoft kutatói szerint sem okos dolog fejest ugrani az ilyen jellegű transzformációba. Az IT Pro néhány nappal ezelőtt megjelent cikke egy olyan friss tanulmányt szemléz, amelyben a vállalat három szakembere megállapítja: a hogy a nagy nyelvi modellek (LLM-ek) a hosszú, kiterjedt munkafolyamatok során hajlamosak korrumpálni a dokumentumokat, ami az adatok törléséhez és a jól ismert hallucinatív módosításához vezethet.
Tesztjeik alapján a legfejlettebb modellek, így a Gemini 3.1 Pro, a Claude Opus 4.6 vagy a GPT 5.4, átlagosan a dokumentumok tartalmának 25 százalékát torzították el, más modellek pedig akár fele részben is tönkretették az általuk kezelt anyagokat. A tudósok megállapítják, hogy a delegálás nyilvánvaló feltétele a bizalom. Elemzésük szerint azonban a jelenleg elérhető megoldások rendszeresen hibáznak, csendben rongálva a dokumentumokat, ami a hosszabb interakciók során fel is halmozódik, és az emberi dolgozóknak is rengeteg idejét emészti fel ennek a javítgatása.
Ez így, ebben a formában...
A lap ezzel kapcsolatban a CodeRabbit egyik tanulmányát is idézi, ami megállapítja, hogy a kódolásra használt mesterséges intelligencia valóban gyors, de ugyanilyen üzembiztosan szállítja a hibákat is, egy másik felmérés pedig arra hívja fel a figyelmet, hogy a szoftverfejlesztők fele nemigen ellenőrzi az MI-vel generált kódokat, még tovább súlyosbítva a problémát. Azt egyébként a Microsoft kutatói is megállapították, hogy az LLM-ek jobban teljesítenek a programozásban, mint a természetes nyelvi vagy olyan niche környezetekben, mint amilyen a keresőoptimalizálás vagy a kottaírás.
A tesztek során akkor nyilvánítottak egy-egy modellt alkalmasnak a feladatok delegálására, ha azok 20 interakció során legalább 98 százalékos pontosságot mutattak. Ezt a Gemini 3.1 Pro a vizsgált 52 területből 11 esetben hozta, a többi megoldás pedig még ezt a szintet sem ugrotta meg. Ami biztosnak látszik, hogy az ágensek összességében nem javították a teljesítményt, különösen a nagy terjedelmű anyagokkal való hosszabb interakciós időszakok alatt. Ez számszerűen azt jelenti, hogy a modellek a szimulált folyamatok 80 százalékában legalább 20 százalékosan károsították azokat.
Bár az LLM teljesítményének összehasonlításával mindez javítható, a tudósok szerint kulcsfontosságú szempont, hogy a munkát az MI-hez delegáló felhasználóknak nem feltétlenül van megfelelő szakértelmük vagy elég idejük a mesterséges intelligencia által végrehajtott változtatások részletes áttekintésére, és az a feltételezés is téves, hogy ha az MI jól működik az egyik területen, akkor ugyanolyan megbízható lesz egy másikon is. Általánosságban elmondható, hogy a tevékenységüket érdemes szorosan felügyelni, ami egyelőre nem támasztja alá a hatékonyságnövelésről szóló propagandát.
Költségcsökkenésből finanszírozott modernizáció
A cloud-native alkalmazások megkövetelik az adatközpontok modernizációját, amihez a SUSE többek között a virtualizációs költségek csökkentésével szabadítana fel jelentős forrásokat.
CIO kutatás
Merre tart a vállalati IT és annak irányítója?
Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.
Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!
Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?