Szabadúszó szoftvermérnököknek szóló kisebb-nagyobb feladatokat adtak a legfejlettebb modelleknek, amelyek internetkapcsolat nélkül nem tudtak megbízható eredményeket szállítani.

Bár az OpenAi vezérigazgatója, Sam Altman nemrég azt fejtegette, hogy a szoftverfejlesztői munka a mesterséges intelligenciának köszönhetően teljesen máshogy fog működni 2025 végére, mint ahogy az év elején ismertük, a társaság néhány nappal ezelőtt közölt kutatása minimum árnyalja ezt az előrejelzést. Az SWE-Lancer nevű új benchmarkról közölt anyagból ugyanis kiderül, hogy egyelőre a legfejlettebb MI-rendszerek (o1, GPT-4o, Claude 3.5 Sonnet) sem voltak képesek megfelelően megoldani a kódolási feladatok többségét az internethez való csatlakozás (vagyis az ott fellelhető kész válaszok felporszívózása) nélkül. Bár a szerzők ragaszkodnak az MI hatalmas potenciáljához, a technológia munkaerőpiaci és mérnöki szakmai hatásairól szólva maguk is valós kockázatokat látnak.

A kutatók az Upwork platformon több mint 1400 darab, összesen egymillió dolláros kifizetéssel járó szoftvermérnöki feladat alapján értékelték, hogy az LLM-ek mennyire teljesítettek jól a hibajavításban és a funkciók implementációjában, valamint azokban a felügyeleti tevékenységekben, amelyek során magasabb szintű döntéseket hozniuk. Mindezek során az MI-modellek változatos munkát végeztek az 50 dolláros foltozgatástól egészen az olyan vezetői feladatokig, ahol saját maguknak kellett választaniuk a műszaki megvalósítási javaslatok közül is.

Segédeszköznek kiváló, de annál nem is több

Az eredményeket háromszorosan ellenőrizték tapasztalt szoftvermérnökök által felügyelt end-to-end teszteken, illetve a felsőbb szintű döntések esetében az eredeti mérnöki vezetők tevékenysége alapján. Mint kiderült, a most vizsgált úgynevezett határmodellek csak a felszínes szoftverproblémák javításában jeleskedtek, de a komolyabb projektek hibáit, illetve a hibák kiváltó okát már nem voltak képesek feltárni. Bár a nagy nyelvi modellek (LLM-ek) gyakran dolgoztak sokkal gyorsabban egy emberi szoftvermérnöknél, azt már nem látták át, hogy milyen széles körben elterjedt hibákról van szó, és azok kontextusát sem tudták értelmezni.

Ez a dokumentum szerint sokszor vezetett "helytelen vagy nem kellően átfogó megoldásokhoz", és ugyan a Claude 3.5 Sonnet kereste a legtöbb virtuális pénzt az Upwork megbízásain, egyik LLM sem bizonyult elég megbízhatónak ahhoz, hogy valós kódolási feladatokat bízzanak rá. A mesterséges intelligencia sebessége önmagában tehát nem feltétlenül jelent értéket a programozásban, pláne a képzett mérnökök munkájának kiváltásában. Így belátható időn belül a humán munkaerő helyettesítése sem tűnik jó ötletnek az MI-vel, még akkor sem, ha a cégvezetők már nem bírnak magukkal a kilátásba helyezett megtakarítások miatt.

Közösség & HR

Kormányzati nyomásra kapcsolja ki a végponti titkosítást az Apple

A cég sajnálja, hogy az Egyesült Királyság felhasználói a jövőben nem támaszkodhatnak erre a biztonsági funkcióra, ami csak úgy maradhatott volna, ha hátsó kaput nyit hozzá a hatóságoknak.
 
Hirdetés

Dynatrace: a modern obszervabilitás pole pozíciójában

Akár a Formula-1-es boxutcában, akár az üzleti életben dolgozunk, egy apró hiba könnyen vészhelyzetet idézhet elő. Szerencsére erre van megoldás, ugyanis a Dynatrace és a hasonló obszervabilitási platformok éppen azért jöttek létre, hogy megelőzzék ezeket a kritikus szituációkat.

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT A PROJEKTMENEDZSMENTRŐL TUDNI KELL!

Ütős esettanulmányok AI-ról, agilitásról, hibrid működésről, elosztott csapatokról, kulturális gapek kezeléséről. Exkluzív információk képzésekről, munkaerőpiacról, kereseti és karrierlehetőségekről.

2025.03.18. Symbol Budapest

RÉSZLETEK »

Nem csak technológiai, hanem kulturális változást is jelent az átállás – többek között erre is tekintettel kell lenni az obszervabilitás széleskörű alkalmazása során.

a melléklet támogatója a Dynatrace

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.