Szabadúszó szoftvermérnököknek szóló kisebb-nagyobb feladatokat adtak a legfejlettebb modelleknek, amelyek internetkapcsolat nélkül nem tudtak megbízható eredményeket szállítani.

Bár az OpenAi vezérigazgatója, Sam Altman nemrég azt fejtegette, hogy a szoftverfejlesztői munka a mesterséges intelligenciának köszönhetően teljesen máshogy fog működni 2025 végére, mint ahogy az év elején ismertük, a társaság néhány nappal ezelőtt közölt kutatása minimum árnyalja ezt az előrejelzést. Az SWE-Lancer nevű új benchmarkról közölt anyagból ugyanis kiderül, hogy egyelőre a legfejlettebb MI-rendszerek (o1, GPT-4o, Claude 3.5 Sonnet) sem voltak képesek megfelelően megoldani a kódolási feladatok többségét az internethez való csatlakozás (vagyis az ott fellelhető kész válaszok felporszívózása) nélkül. Bár a szerzők ragaszkodnak az MI hatalmas potenciáljához, a technológia munkaerőpiaci és mérnöki szakmai hatásairól szólva maguk is valós kockázatokat látnak.

A kutatók az Upwork platformon több mint 1400 darab, összesen egymillió dolláros kifizetéssel járó szoftvermérnöki feladat alapján értékelték, hogy az LLM-ek mennyire teljesítettek jól a hibajavításban és a funkciók implementációjában, valamint azokban a felügyeleti tevékenységekben, amelyek során magasabb szintű döntéseket hozniuk. Mindezek során az MI-modellek változatos munkát végeztek az 50 dolláros foltozgatástól egészen az olyan vezetői feladatokig, ahol saját maguknak kellett választaniuk a műszaki megvalósítási javaslatok közül is.

Segédeszköznek kiváló, de annál nem is több

Az eredményeket háromszorosan ellenőrizték tapasztalt szoftvermérnökök által felügyelt end-to-end teszteken, illetve a felsőbb szintű döntések esetében az eredeti mérnöki vezetők tevékenysége alapján. Mint kiderült, a most vizsgált úgynevezett határmodellek csak a felszínes szoftverproblémák javításában jeleskedtek, de a komolyabb projektek hibáit, illetve a hibák kiváltó okát már nem voltak képesek feltárni. Bár a nagy nyelvi modellek (LLM-ek) gyakran dolgoztak sokkal gyorsabban egy emberi szoftvermérnöknél, azt már nem látták át, hogy milyen széles körben elterjedt hibákról van szó, és azok kontextusát sem tudták értelmezni.

Ez a dokumentum szerint sokszor vezetett "helytelen vagy nem kellően átfogó megoldásokhoz", és ugyan a Claude 3.5 Sonnet kereste a legtöbb virtuális pénzt az Upwork megbízásain, egyik LLM sem bizonyult elég megbízhatónak ahhoz, hogy valós kódolási feladatokat bízzanak rá. A mesterséges intelligencia sebessége önmagában tehát nem feltétlenül jelent értéket a programozásban, pláne a képzett mérnökök munkájának kiváltásában. Így belátható időn belül a humán munkaerő helyettesítése sem tűnik jó ötletnek az MI-vel, még akkor sem, ha a cégvezetők már nem bírnak magukkal a kilátásba helyezett megtakarítások miatt.

Közösség & HR

Kicsinyíti az igazgatóját ért hekkertámadás jelentőségét az FBI

Persze sokkal jobb vagy több lehetősége nincs is a szövetségi ügynökségnek azt követően, hogy iráni hekkerek világgá kürtölték Kash Patel privát levélfiókjának feltörését.
 
Nincs egy új, "alapértelmezett" platform a VMware mellett, helyett; az informatikai vezetők egy, a korábbinál jelentősen összetettebb döntési helyzetben találják magukat 2026-ban. Cikkünk arra a kérdésre keresi a választ, hogy milyen lehetőségek közül választhatnak a CIO-k.

a melléklet támogatója az EURO ONE

Hirdetés

HPE Morpheus VM Essentials: a virtualizáció arany középútja

Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.