Szabadúszó szoftvermérnököknek szóló kisebb-nagyobb feladatokat adtak a legfejlettebb modelleknek, amelyek internetkapcsolat nélkül nem tudtak megbízható eredményeket szállítani.

Bár az OpenAi vezérigazgatója, Sam Altman nemrég azt fejtegette, hogy a szoftverfejlesztői munka a mesterséges intelligenciának köszönhetően teljesen máshogy fog működni 2025 végére, mint ahogy az év elején ismertük, a társaság néhány nappal ezelőtt közölt kutatása minimum árnyalja ezt az előrejelzést. Az SWE-Lancer nevű új benchmarkról közölt anyagból ugyanis kiderül, hogy egyelőre a legfejlettebb MI-rendszerek (o1, GPT-4o, Claude 3.5 Sonnet) sem voltak képesek megfelelően megoldani a kódolási feladatok többségét az internethez való csatlakozás (vagyis az ott fellelhető kész válaszok felporszívózása) nélkül. Bár a szerzők ragaszkodnak az MI hatalmas potenciáljához, a technológia munkaerőpiaci és mérnöki szakmai hatásairól szólva maguk is valós kockázatokat látnak.

A kutatók az Upwork platformon több mint 1400 darab, összesen egymillió dolláros kifizetéssel járó szoftvermérnöki feladat alapján értékelték, hogy az LLM-ek mennyire teljesítettek jól a hibajavításban és a funkciók implementációjában, valamint azokban a felügyeleti tevékenységekben, amelyek során magasabb szintű döntéseket hozniuk. Mindezek során az MI-modellek változatos munkát végeztek az 50 dolláros foltozgatástól egészen az olyan vezetői feladatokig, ahol saját maguknak kellett választaniuk a műszaki megvalósítási javaslatok közül is.

Segédeszköznek kiváló, de annál nem is több

Az eredményeket háromszorosan ellenőrizték tapasztalt szoftvermérnökök által felügyelt end-to-end teszteken, illetve a felsőbb szintű döntések esetében az eredeti mérnöki vezetők tevékenysége alapján. Mint kiderült, a most vizsgált úgynevezett határmodellek csak a felszínes szoftverproblémák javításában jeleskedtek, de a komolyabb projektek hibáit, illetve a hibák kiváltó okát már nem voltak képesek feltárni. Bár a nagy nyelvi modellek (LLM-ek) gyakran dolgoztak sokkal gyorsabban egy emberi szoftvermérnöknél, azt már nem látták át, hogy milyen széles körben elterjedt hibákról van szó, és azok kontextusát sem tudták értelmezni.

Ez a dokumentum szerint sokszor vezetett "helytelen vagy nem kellően átfogó megoldásokhoz", és ugyan a Claude 3.5 Sonnet kereste a legtöbb virtuális pénzt az Upwork megbízásain, egyik LLM sem bizonyult elég megbízhatónak ahhoz, hogy valós kódolási feladatokat bízzanak rá. A mesterséges intelligencia sebessége önmagában tehát nem feltétlenül jelent értéket a programozásban, pláne a képzett mérnökök munkájának kiváltásában. Így belátható időn belül a humán munkaerő helyettesítése sem tűnik jó ötletnek az MI-vel, még akkor sem, ha a cégvezetők már nem bírnak magukkal a kilátásba helyezett megtakarítások miatt.

Közösség & HR

Az MI-ügynökök egy szakmát villámgyorsan kinyírhatnak

A Salesforce tanulmánya szerint mindössze két év, és az ügyfélszolgálati hívások felét mesterséges intelligencia kezeli. Ráadásul jobban, mint az ember.
 
Hirdetés

A kifizetett energia
60%-a elvész, de egy audit feltárja, hol folyik el a pénzünk

A Schneider Electric energiahatékonysági szolgáltatása átfogó megoldást kínál, amely támogatja a cégek energiahatékonyság-növelési programjaik megvalósításában, az iparágban vezető megoldások, szolgáltatások és szakértők segítségével.

A vállalati IT-rendszerek egyik legnagyobb kihívása ma már nem a hardver beszerzése vagy a szoftverek integrációja, hanem az üzemeltetés. A modern storage-megoldások válasza erre az automatizáció és a menedzsment egyszerűsítése.

a melléklet támogatója az EURO ONE

Hirdetés

Hatékony adattárolás, biztonságosabb működés: HPE storage az EURO ONE szakértelmével

Az adatmennyiség rohamos növekedése, a kritikus üzleti alkalmazások rendelkezésre állási követelményei és a kiberbiztonsági fenyegetések mind olyan tényezők, amelyek túlmutatnak a hagyományos storage-megoldások képességein.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.