
Bár az OpenAi vezérigazgatója, Sam Altman nemrég azt fejtegette, hogy a szoftverfejlesztői munka a mesterséges intelligenciának köszönhetően teljesen máshogy fog működni 2025 végére, mint ahogy az év elején ismertük, a társaság néhány nappal ezelőtt közölt kutatása minimum árnyalja ezt az előrejelzést. Az SWE-Lancer nevű új benchmarkról közölt anyagból ugyanis kiderül, hogy egyelőre a legfejlettebb MI-rendszerek (o1, GPT-4o, Claude 3.5 Sonnet) sem voltak képesek megfelelően megoldani a kódolási feladatok többségét az internethez való csatlakozás (vagyis az ott fellelhető kész válaszok felporszívózása) nélkül. Bár a szerzők ragaszkodnak az MI hatalmas potenciáljához, a technológia munkaerőpiaci és mérnöki szakmai hatásairól szólva maguk is valós kockázatokat látnak.
A kutatók az Upwork platformon több mint 1400 darab, összesen egymillió dolláros kifizetéssel járó szoftvermérnöki feladat alapján értékelték, hogy az LLM-ek mennyire teljesítettek jól a hibajavításban és a funkciók implementációjában, valamint azokban a felügyeleti tevékenységekben, amelyek során magasabb szintű döntéseket hozniuk. Mindezek során az MI-modellek változatos munkát végeztek az 50 dolláros foltozgatástól egészen az olyan vezetői feladatokig, ahol saját maguknak kellett választaniuk a műszaki megvalósítási javaslatok közül is.
Segédeszköznek kiváló, de annál nem is több
Az eredményeket háromszorosan ellenőrizték tapasztalt szoftvermérnökök által felügyelt end-to-end teszteken, illetve a felsőbb szintű döntések esetében az eredeti mérnöki vezetők tevékenysége alapján. Mint kiderült, a most vizsgált úgynevezett határmodellek csak a felszínes szoftverproblémák javításában jeleskedtek, de a komolyabb projektek hibáit, illetve a hibák kiváltó okát már nem voltak képesek feltárni. Bár a nagy nyelvi modellek (LLM-ek) gyakran dolgoztak sokkal gyorsabban egy emberi szoftvermérnöknél, azt már nem látták át, hogy milyen széles körben elterjedt hibákról van szó, és azok kontextusát sem tudták értelmezni.
Ez a dokumentum szerint sokszor vezetett "helytelen vagy nem kellően átfogó megoldásokhoz", és ugyan a Claude 3.5 Sonnet kereste a legtöbb virtuális pénzt az Upwork megbízásain, egyik LLM sem bizonyult elég megbízhatónak ahhoz, hogy valós kódolási feladatokat bízzanak rá. A mesterséges intelligencia sebessége önmagában tehát nem feltétlenül jelent értéket a programozásban, pláne a képzett mérnökök munkájának kiváltásában. Így belátható időn belül a humán munkaerő helyettesítése sem tűnik jó ötletnek az MI-vel, még akkor sem, ha a cégvezetők már nem bírnak magukkal a kilátásba helyezett megtakarítások miatt.
HPE Morpheus VM Essentials: a virtualizáció arany középútja
Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.
CIO kutatás
Merre tart a vállalati IT és annak irányítója?
Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.
Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!
Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?