Egy nagyszabású vizsgálat azokat a benchmarkokat elemezte, amelyeket a nagy nyelvi modellek teljesítményének nyilvános összehasonlítására használnak, de a gyakorlatban még tájékoztató jellegű eredményeket sem mindig érdemes várni tőlük.
Hirdetés
 

A vállalati döntéshozók úgy rendelnek akár nyolc-kilenc számjegyű (dollárban) összegeket a generatív MI-projektekhez, hogy hibás és félrevezető benchmarkok alapján határoznak az esetenként igen nagy horderejű beszerzési és fejlesztési programokról. A nagy nyelvi modellek (LLM-ek) képességeinek összehasonlításához használt adatok azonban félrevezetőek, amennyiben szinte minden esetben gyengeségeket mutatnak legalább egy olyan területen, ami aláássa a modellek teljesítményére vonatkozó állításaikat – olvasható a Measuring what Matters: Construct Validity in Large Language Model Benchmarks című tanulmányban, amit december elején mutatnak majd be egy neurális információs rendszerekről szóló konferencián.

A kutatás összesen 445 különálló LLM-benchmark elemzésére épül, amelyekre a nyilvános ranglisták mellett mindenki támaszkodni próbál az MI-rendszerek képességeinek értékelésében. A feltárt bizonytalanság a szerzők szerint alapjaiban veszélyezteti a vonatkozó beruházási és irányításai (governance) stratégiákat, hiszen ha a modellek biztonságára vagy "robusztusságára" vonatkozó referenciaértékek nem adják vissza ezeket a tulajdonságokat, akkor a technológiát alkalmazó szervezetek komoly pénzügyi és reputációs kockázatoknak tehetik ki magukat. Az alkalmazott módszerek fogalmi érvényességét (construct validity) vizsgáló anyag ráadásul arra jutott, hogy ebben legtöbbször a feltételes mód sem indokolt.

A máshol szerkezeti érvényességnek is fordított fogalmi érvényesség ebben az esetben azt mutatja, hogy egy-egy teszt valójában mennyire képes mérni azt az absztrakt fogalmat, amit mérnie kellene. Így ha egy benchmark alacsony konstrukciós validitással rendelkezik, akkor abból az következik, hogy a teszteken elért magas pontszám minimum irreleváns, de akár félrevezető is lehet. Ahogy az AI News összefoglalója kiemeli, a tanulmány szerint már a kulcsfogalmak meghatározása és operacionalizálása is gyakran problémás, de a szállítók a benchmarkokon elért legjobb pontszámaikat lobogtatva mégis azt a látszatot keltik, hogy a szóban forgó a pontszámok a modellektől várható valós üzleti teljesítményt is megbízhatóan jelzik.

Amit nem tudsz meghatározni, azt mérni sem tudod

A tanulmányban "rendszerszintű hiányosságokról" van szó a referenciaértékek kialakításától kezdve egészen az eredmények közlésének a módjáig. Bemutatják például, hogy ha egy jelenségre adnak is valamilyen definíciót, azok közel fele vitatható az olyan fogalmakra vonatkozóan, amelyek sok lehetséges definícióval rendelkeznek, vagy éppen nem definiálhatóak egyértelműen. Így ha két szállító eltérő pontszámot ér el valamelyik kategóriában, az nem feltétlenül a modellek valódi különbségét mutatja, mint ahogy bizonytalansági becsléseket vagy statisztikai teszteket is ritkán használnak az eredmények összehasonlítására, amivel lényegében egy kalap alá veszik a tényleges különbségeket a véletlenszerűségből fakadó eltérésekkel.

A dokumentumban előkerül az adatszennyezés témája is: különösen az érvelési képességeket érintő benchmarkok esetében néz ki rosszul, amikor a kérdések és válaszok már ott vannak a modellek betanításához használt adatok között, így a magas pontszám inkább a jó memóriát, mintsem az összetett feladatok elvégzéséhez szükséges képességekre utal. De éppen ennyire félrevezető a nem reprezentatív adatkészletek alkalmazása is, amikor a felhasznált adatok nem tükrözik hitelesen a valós helyzeteket. Ilyenkor a modellek hiába teljesítenek jól, ha az eredményből nem következik, hogy később nem vallanak kudarcot a gyakorlati feladatokkal, és "kritikus vakfoltok" jönnek létre, elrejtve a modellek ismert gyengeségeit.

Az AI News beszámolója szerint a kutatás határozott figyelmeztetésként szolgál a vállalati döntéshozók számára, mert bemutatja, hogy a nyilvános MI-benchmarkok nem válthatják ki a belső és területspecifikus értékeléseket. Ahogy a cikkben idézett szakértő fogalmaz, ebben a felállásban a fejlődés egyszerű számháborúvá silányul, miközben a felelős innováció az együttműködésre, az egységes értékelésre és a megfelelő módszertanra épül. Érdekes egyébként, hogy azokat a modelleket, amelyek magas pontszámokat érnek el a szabványosított eljárásokon, milyen gyakran sikerül a közönségnek primtív feladatokkal leolvasztania – ami ugyancsak felveti az LLM-ek értékelésére szolgáló folyamatok felülvizsgálatának kérdését.

Részletek a kutatásban elvetett problémákról és megoldási javaslatokról »

Piaci hírek

Látványosan rövidíti bérlistáját az IBM

A cég a több ezer dolgozót érintő leépítést azzal indokolja, hogy a jövőben erősebben fókuszálna a nagyobb jövedelmezőséggel kecsegtető üzletágakra.
 
A vállalati IT-költések a hagyományos, tőkebefektetésen alapuló modellről egyre inkább a szolgáltatásalapú, üzemeltetési költségekre épülő megközelítés felé tolódnak el. Utóbbi rugalmasabb, azonban a teljes birtoklási költség sokszor csak utólag válik láthatóvá.

a melléklet támogatója a 4iG

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.