Az ellenőrzött gépi tanulás (supervised machine learning), amelyben a gépi tanuló modellek tanítására előre felcímkézett adatkészleteket alkalmaznak, csak annyira lehet hatékony, mint amilyen minőséget a szóban forgó adatkészlet képvisel – derül ki a Quantitative Science Studies által megjelentetett tanulmányból. Ebben eddig semmi meglepő nincs, a Webster Pacific tanácsadó egyetemi kutatókkal közösen készített anyagában azonban azt is megvizsgálták, hogy az MI témájú kutatások mennyiben felelnek meg a minták informatív felcímkékézésével kapcsolatos legjobb gyakorlatoknak, különös tekintettel az emberi munkával feldolgozott adatkészletekre.
A kutatás megállapítja, hogy ezekben a felcímkézett adatok típusai igen széles skálán mozognak, kezdve azzal, hogy a tanulmányok nagyobbik része egyáltalán nem ad megfelelő információt arról, hogy pontosan honnan származnak a felhasznált adatok, vagy ki végezte el azok felcímkézését. Bár az ilyen adatkészleteket általában megfeleltetik a mérési alapok ismert eredményeinek (ground truth), a gyakorlatban tartalmazhatnak, és tartalmaznak is hibákat, ahogy az összeállításukra használt folyamatok hibái leszivárognak a tesztelésre használt részhalmazokba.
A VentureBeat beszámolója ezzel összefüggésben az MIT nemrég közzétett tanulmányát idézi, amelyben több milliárdnyi rosszul felcímkézett mintát azonosítottak a kereskedelmi rendszerek betanítására alkalmazott adatkészletekben. Ezek a hibák pedig arra késztethetik a tudósokat, hogy helytelen következtetéseket vonjanak le róla, mely modellek teljesítenek a legjobban a való világban történő felhasználásban, aláásva a benchmarkok hitelességét is.
A fent idézett kutatás szerzői összesen 141 darab MI témájú anyagot vizsgáltak különböző tudományterületeken, beleértve a társadalomtudományokat, a humán tudományokat, az orvosbiológiai és élettudományokat, valamint a fizikai és környezettudományokat is. Az összes cikk 41 százaléka hivatkozott már ismert, emberi munkával összeállított adatkészletekre, 27 százalékukban használtak hasonló, de új adatkészleteket, 5 százalékukban pedig nem jelölték meg, hogy pontosan mivel dolgoztak. Gépi címkézésről a fennmaradó 27 százaléknál volt csak szó.
Nincs infó, vagy van, de minek
Az emberek által címkézett adatokat használó projekteknek (vagyis a projektek nagy többségének) mindössze a fele tért ki arra, hogy a humán munkaerő kapott-e olyan dokumentumokat vagy videókat, amelyek útmutatásokat, definíciókat és példákat tartalmaztak, és amelyekre munkája során támaszkodhatott. Sőt a mérőszámokban már annak az értékelésében is nagy eltérések mutatkoztak, hogy az annotátorok mennyiben értettek egyet az adott címkék jelölésében – ha egyáltalán a kutatási anyagok kitértek erre a nem elhanyagolható szempontra.
Ennek kapcsán pedig régóta téma, hogy a címkézés független felhasználók nagy csoportjának való kiszervezése (crowdsourcing) milyen nyilvánvaló csapdákkal van tele. Ahogy azt több esetben is igazolták, a kulturális vagy társadalmi kiegyensúlyozatlanság is egyértelműen visszaköszönk az adatkészletek minőségében: ha mondjuk az a feladat, hogy ki kell választani, melyik képen szerepel egy esküvő vagy azon belül is a vőlegény, azt az amerikaiak sokkal pontosabban értékelik, mint mondjuk a pakisztáni vagy etióp felhasználók. Ennek pedig az az oka, hogy valószínűleg a felcímkézésre váró képek között is eleve nyugati, és nem pakisztáni vagy etióp esküvői felvételek vannak.
Egy másik fontos dolog, hogy a címkézést végző emberi munkaerő szempontjából rendkívül monoton és rosszul fizetett tevékenységről van szó: a népszerű ImageNet például 2 dolláros medián órabért kínál érte. A legtöbb publikáció azonban nem foglalkozik ilyesmivel, és semmilyen utalást nem tesz az osztályozó munka minőségére, és közvetlen hivatkozásokat sem tartalmaz a modellek tanításához felhasznált adatkészletekre. Ez mások mellett a reprodukálhatóság tekintetében is komoly problémákat okoz, és már az is kiderült, hogy a természetes nyelvek feldolgozására szolgáló modellek válaszainak nagy része megtalálható a benchmark betanítási készletekben, vagyis az MI modellek egyszerűen csak megjegyezi az ott szereplő válaszokat.
Ahogy a mostani kutatás is megállapítja, a reprodukálhatóság ezen a területen is alapvető követelmény lenne, márpedig az adatkészletek felcímkézéséről szólva nagyon sok nyitott kérdés van ezzel kapcsolatban. Azt már teljesen igazoltnak látják, hogy a humán munkára alapuló címkézés alapvető és igen nagy eltéréseket mutat, nem beszélve az adatkészletek gondozásáról vagy a kutatások dokumentálásáról. A minőségi változást az együttműködésben látják a folyamat összes résztvevőjétől (az adattudósoktól az oktatóktól, a szabályozóktól, a tudományos kiadóktól vagy akár a kutatások finanszírozóitól), amelynek hiányában nehezen tartják elképzelhetőnek az adatok minőségének javulását.
Adathelyreállítás pillanatok alatt
A vírus- és végpontvédelmet hatékonyan kiegészítő Zerto, a Hewlett Packard Enterprise Company platformfüggetlen, könnyen használható adatmentési és katasztrófaelhárítási megoldása.
CIO KUTATÁS
TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?
Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »
Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak