Szabadúszó szoftvermérnököknek szóló kisebb-nagyobb feladatokat adtak a legfejlettebb modelleknek, amelyek internetkapcsolat nélkül nem tudtak megbízható eredményeket szállítani.
Hirdetés
 

Bár az OpenAi vezérigazgatója, Sam Altman nemrég azt fejtegette, hogy a szoftverfejlesztői munka a mesterséges intelligenciának köszönhetően teljesen máshogy fog működni 2025 végére, mint ahogy az év elején ismertük, a társaság néhány nappal ezelőtt közölt kutatása minimum árnyalja ezt az előrejelzést. Az SWE-Lancer nevű új benchmarkról közölt anyagból ugyanis kiderül, hogy egyelőre a legfejlettebb MI-rendszerek (o1, GPT-4o, Claude 3.5 Sonnet) sem voltak képesek megfelelően megoldani a kódolási feladatok többségét az internethez való csatlakozás (vagyis az ott fellelhető kész válaszok felporszívózása) nélkül. Bár a szerzők ragaszkodnak az MI hatalmas potenciáljához, a technológia munkaerőpiaci és mérnöki szakmai hatásairól szólva maguk is valós kockázatokat látnak.

A kutatók az Upwork platformon több mint 1400 darab, összesen egymillió dolláros kifizetéssel járó szoftvermérnöki feladat alapján értékelték, hogy az LLM-ek mennyire teljesítettek jól a hibajavításban és a funkciók implementációjában, valamint azokban a felügyeleti tevékenységekben, amelyek során magasabb szintű döntéseket hozniuk. Mindezek során az MI-modellek változatos munkát végeztek az 50 dolláros foltozgatástól egészen az olyan vezetői feladatokig, ahol saját maguknak kellett választaniuk a műszaki megvalósítási javaslatok közül is.

Segédeszköznek kiváló, de annál nem is több

Az eredményeket háromszorosan ellenőrizték tapasztalt szoftvermérnökök által felügyelt end-to-end teszteken, illetve a felsőbb szintű döntések esetében az eredeti mérnöki vezetők tevékenysége alapján. Mint kiderült, a most vizsgált úgynevezett határmodellek csak a felszínes szoftverproblémák javításában jeleskedtek, de a komolyabb projektek hibáit, illetve a hibák kiváltó okát már nem voltak képesek feltárni. Bár a nagy nyelvi modellek (LLM-ek) gyakran dolgoztak sokkal gyorsabban egy emberi szoftvermérnöknél, azt már nem látták át, hogy milyen széles körben elterjedt hibákról van szó, és azok kontextusát sem tudták értelmezni.

Ez a dokumentum szerint sokszor vezetett "helytelen vagy nem kellően átfogó megoldásokhoz", és ugyan a Claude 3.5 Sonnet kereste a legtöbb virtuális pénzt az Upwork megbízásain, egyik LLM sem bizonyult elég megbízhatónak ahhoz, hogy valós kódolási feladatokat bízzanak rá. A mesterséges intelligencia sebessége önmagában tehát nem feltétlenül jelent értéket a programozásban, pláne a képzett mérnökök munkájának kiváltásában. Így belátható időn belül a humán munkaerő helyettesítése sem tűnik jó ötletnek az MI-vel, még akkor sem, ha a cégvezetők már nem bírnak magukkal a kilátásba helyezett megtakarítások miatt.

Közösség & HR

Kínát robotok tömege segíti a kereskedelmi háborúban

Győztest még korai lenne hirdetni, ha lesz egyáltalán győztese a dolognak, de egyre inkább úgy tűnik, hogy a robotikai versenyben az amerikaiaknak nem sok választásuk lesz az együttműködésen kívül.
 
Hirdetés

Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?

A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió.

Azok a vállalatok, amelyek gyorsabban, intelligensebben és empatikusabban tudnak reagálni ügyfeleik kérdéseire, összességében értékesebb, hosszabb távú kapcsolatokat építhetnek ki.

a melléklet támogatója a One Solutions

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.