A modellek betanítására használt adatkészletek alapvető és igen nagy eltéréseket mutatnak, de még ez sincs megfelelően dokumentálva – állítja egy nemrég közzétett kutatás.

Az ellenőrzött gépi tanulás (supervised machine learning), amelyben a gépi tanuló modellek tanítására előre felcímkézett adatkészleteket alkalmaznak, csak annyira lehet hatékony, mint amilyen minőséget a szóban forgó adatkészlet képvisel – derül ki a Quantitative Science Studies által megjelentetett tanulmányból. Ebben eddig semmi meglepő nincs, a Webster Pacific tanácsadó egyetemi kutatókkal közösen készített anyagában azonban azt is megvizsgálták, hogy az MI témájú kutatások mennyiben felelnek meg a minták informatív felcímkékézésével kapcsolatos legjobb gyakorlatoknak, különös tekintettel az emberi munkával feldolgozott adatkészletekre.

A kutatás megállapítja, hogy ezekben a felcímkézett adatok típusai igen széles skálán mozognak, kezdve azzal, hogy a tanulmányok nagyobbik része egyáltalán nem ad megfelelő információt arról, hogy pontosan honnan származnak a felhasznált adatok, vagy ki végezte el azok felcímkézését. Bár az ilyen adatkészleteket általában megfeleltetik a mérési alapok ismert eredményeinek (ground truth), a gyakorlatban tartalmazhatnak, és tartalmaznak is hibákat, ahogy az összeállításukra használt folyamatok hibái leszivárognak a tesztelésre használt részhalmazokba.

A VentureBeat beszámolója ezzel összefüggésben az MIT nemrég közzétett tanulmányát idézi, amelyben több milliárdnyi rosszul felcímkézett mintát azonosítottak a kereskedelmi rendszerek betanítására alkalmazott adatkészletekben. Ezek a hibák pedig arra késztethetik a tudósokat, hogy helytelen következtetéseket vonjanak le róla, mely modellek teljesítenek a legjobban a való világban történő felhasználásban, aláásva a benchmarkok hitelességét is.

A fent idézett kutatás szerzői összesen 141 darab MI témájú anyagot vizsgáltak különböző tudományterületeken, beleértve a társadalomtudományokat, a humán tudományokat, az orvosbiológiai és élettudományokat, valamint a fizikai és környezettudományokat is. Az összes cikk 41 százaléka hivatkozott már ismert, emberi munkával összeállított adatkészletekre, 27 százalékukban használtak hasonló, de új adatkészleteket, 5 százalékukban pedig nem jelölték meg, hogy pontosan mivel dolgoztak. Gépi címkézésről a fennmaradó 27 százaléknál volt csak szó.

Nincs infó, vagy van, de minek

Az emberek által címkézett adatokat használó projekteknek (vagyis a projektek nagy többségének) mindössze a fele tért ki arra, hogy a humán munkaerő kapott-e olyan dokumentumokat vagy videókat, amelyek útmutatásokat, definíciókat és példákat tartalmaztak, és amelyekre munkája során támaszkodhatott. Sőt a mérőszámokban már annak az értékelésében is nagy eltérések mutatkoztak, hogy az annotátorok mennyiben értettek egyet az adott címkék jelölésében – ha egyáltalán a kutatási anyagok kitértek erre a nem elhanyagolható szempontra.

Ennek kapcsán pedig régóta téma, hogy a címkézés független felhasználók nagy csoportjának való kiszervezése (crowdsourcing) milyen nyilvánvaló csapdákkal van tele. Ahogy azt több esetben is igazolták, a kulturális vagy társadalmi kiegyensúlyozatlanság is egyértelműen visszaköszönk az adatkészletek minőségében: ha mondjuk az a feladat, hogy ki kell választani, melyik képen szerepel egy esküvő vagy azon belül is a vőlegény, azt az amerikaiak sokkal pontosabban értékelik, mint mondjuk a pakisztáni vagy etióp felhasználók. Ennek pedig az az oka, hogy valószínűleg a felcímkézésre váró képek között is eleve nyugati, és nem pakisztáni vagy etióp esküvői felvételek vannak.

Egy másik fontos dolog, hogy a címkézést végző emberi munkaerő szempontjából rendkívül monoton és rosszul fizetett tevékenységről van szó: a népszerű ImageNet például 2 dolláros medián órabért kínál érte. A legtöbb publikáció azonban nem foglalkozik ilyesmivel, és semmilyen utalást nem tesz az osztályozó munka minőségére, és közvetlen hivatkozásokat sem tartalmaz a modellek tanításához felhasznált adatkészletekre. Ez mások mellett a reprodukálhatóság tekintetében is komoly problémákat okoz, és már az is kiderült, hogy a természetes nyelvek feldolgozására szolgáló modellek válaszainak nagy része megtalálható a benchmark betanítási készletekben, vagyis az MI modellek egyszerűen csak megjegyezi az ott szereplő válaszokat.

Ahogy a mostani kutatás is megállapítja, a reprodukálhatóság ezen a területen is alapvető követelmény lenne, márpedig az adatkészletek felcímkézéséről szólva nagyon sok nyitott kérdés van ezzel kapcsolatban. Azt már teljesen igazoltnak látják, hogy a humán munkára alapuló címkézés alapvető és igen nagy eltéréseket mutat, nem beszélve az adatkészletek gondozásáról vagy a kutatások dokumentálásáról. A minőségi változást az együttműködésben látják a folyamat összes résztvevőjétől (az adattudósoktól az oktatóktól, a szabályozóktól, a tudományos kiadóktól vagy akár a kutatások finanszírozóitól), amelynek hiányában nehezen tartják elképzelhetőnek az adatok minőségének javulását.

Cloud & big data

Több ezer alkalmazottjától válik meg az Oracle

A vállalat kedden elkezdte kiküldeni a felmondóleveleket az érintetteknek. Azt még nem tudni, hol áll meg a layoff.fy számlálója.
 
Az új technológiák alapjaiban írják át az alkalmazásbiztonság szabályait. Most hatványozottan igaz, hogy szárazon kell tartani a puskaport.

a melléklet támogatója a Clico

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.