A modellek betanítására használt adatkészletek alapvető és igen nagy eltéréseket mutatnak, de még ez sincs megfelelően dokumentálva – állítja egy nemrég közzétett kutatás.

Az ellenőrzött gépi tanulás (supervised machine learning), amelyben a gépi tanuló modellek tanítására előre felcímkézett adatkészleteket alkalmaznak, csak annyira lehet hatékony, mint amilyen minőséget a szóban forgó adatkészlet képvisel – derül ki a Quantitative Science Studies által megjelentetett tanulmányból. Ebben eddig semmi meglepő nincs, a Webster Pacific tanácsadó egyetemi kutatókkal közösen készített anyagában azonban azt is megvizsgálták, hogy az MI témájú kutatások mennyiben felelnek meg a minták informatív felcímkékézésével kapcsolatos legjobb gyakorlatoknak, különös tekintettel az emberi munkával feldolgozott adatkészletekre.

A kutatás megállapítja, hogy ezekben a felcímkézett adatok típusai igen széles skálán mozognak, kezdve azzal, hogy a tanulmányok nagyobbik része egyáltalán nem ad megfelelő információt arról, hogy pontosan honnan származnak a felhasznált adatok, vagy ki végezte el azok felcímkézését. Bár az ilyen adatkészleteket általában megfeleltetik a mérési alapok ismert eredményeinek (ground truth), a gyakorlatban tartalmazhatnak, és tartalmaznak is hibákat, ahogy az összeállításukra használt folyamatok hibái leszivárognak a tesztelésre használt részhalmazokba.

A VentureBeat beszámolója ezzel összefüggésben az MIT nemrég közzétett tanulmányát idézi, amelyben több milliárdnyi rosszul felcímkézett mintát azonosítottak a kereskedelmi rendszerek betanítására alkalmazott adatkészletekben. Ezek a hibák pedig arra késztethetik a tudósokat, hogy helytelen következtetéseket vonjanak le róla, mely modellek teljesítenek a legjobban a való világban történő felhasználásban, aláásva a benchmarkok hitelességét is.

A fent idézett kutatás szerzői összesen 141 darab MI témájú anyagot vizsgáltak különböző tudományterületeken, beleértve a társadalomtudományokat, a humán tudományokat, az orvosbiológiai és élettudományokat, valamint a fizikai és környezettudományokat is. Az összes cikk 41 százaléka hivatkozott már ismert, emberi munkával összeállított adatkészletekre, 27 százalékukban használtak hasonló, de új adatkészleteket, 5 százalékukban pedig nem jelölték meg, hogy pontosan mivel dolgoztak. Gépi címkézésről a fennmaradó 27 százaléknál volt csak szó.

Nincs infó, vagy van, de minek

Az emberek által címkézett adatokat használó projekteknek (vagyis a projektek nagy többségének) mindössze a fele tért ki arra, hogy a humán munkaerő kapott-e olyan dokumentumokat vagy videókat, amelyek útmutatásokat, definíciókat és példákat tartalmaztak, és amelyekre munkája során támaszkodhatott. Sőt a mérőszámokban már annak az értékelésében is nagy eltérések mutatkoztak, hogy az annotátorok mennyiben értettek egyet az adott címkék jelölésében – ha egyáltalán a kutatási anyagok kitértek erre a nem elhanyagolható szempontra.

Ennek kapcsán pedig régóta téma, hogy a címkézés független felhasználók nagy csoportjának való kiszervezése (crowdsourcing) milyen nyilvánvaló csapdákkal van tele. Ahogy azt több esetben is igazolták, a kulturális vagy társadalmi kiegyensúlyozatlanság is egyértelműen visszaköszönk az adatkészletek minőségében: ha mondjuk az a feladat, hogy ki kell választani, melyik képen szerepel egy esküvő vagy azon belül is a vőlegény, azt az amerikaiak sokkal pontosabban értékelik, mint mondjuk a pakisztáni vagy etióp felhasználók. Ennek pedig az az oka, hogy valószínűleg a felcímkézésre váró képek között is eleve nyugati, és nem pakisztáni vagy etióp esküvői felvételek vannak.

Egy másik fontos dolog, hogy a címkézést végző emberi munkaerő szempontjából rendkívül monoton és rosszul fizetett tevékenységről van szó: a népszerű ImageNet például 2 dolláros medián órabért kínál érte. A legtöbb publikáció azonban nem foglalkozik ilyesmivel, és semmilyen utalást nem tesz az osztályozó munka minőségére, és közvetlen hivatkozásokat sem tartalmaz a modellek tanításához felhasznált adatkészletekre. Ez mások mellett a reprodukálhatóság tekintetében is komoly problémákat okoz, és már az is kiderült, hogy a természetes nyelvek feldolgozására szolgáló modellek válaszainak nagy része megtalálható a benchmark betanítási készletekben, vagyis az MI modellek egyszerűen csak megjegyezi az ott szereplő válaszokat.

Ahogy a mostani kutatás is megállapítja, a reprodukálhatóság ezen a területen is alapvető követelmény lenne, márpedig az adatkészletek felcímkézéséről szólva nagyon sok nyitott kérdés van ezzel kapcsolatban. Azt már teljesen igazoltnak látják, hogy a humán munkára alapuló címkézés alapvető és igen nagy eltéréseket mutat, nem beszélve az adatkészletek gondozásáról vagy a kutatások dokumentálásáról. A minőségi változást az együttműködésben látják a folyamat összes résztvevőjétől (az adattudósoktól az oktatóktól, a szabályozóktól, a tudományos kiadóktól vagy akár a kutatások finanszírozóitól), amelynek hiányában nehezen tartják elképzelhetőnek az adatok minőségének javulását.

Cloud & big data

Egyre furcsábbak lesznek a CAPTCHA tesztek, ahogy a gépek is okosodnak

Már nagyon jók például például a fényképek címkézésében, de a logikai összefüggéseken könnyen fennakadnak. Igaz, ezzel így lehet némelyik emberi felhasználó is.
 
Hirdetés

Adathelyreállítás pillanatok alatt

A vírus- és végpontvédelmet hatékonyan kiegészítő Zerto, a Hewlett Packard Enterprise Company platformfüggetlen, könnyen használható adatmentési és katasztrófaelhárítási megoldása.

A válasz egyszerű: arról függ, hogy hol, hogyan és milyen szabályozásoknak és üzleti elvárásoknak megfelelően tároljuk az információt. A lényeg azonban a részletekben rejlik.

a melléklet támogatója az EURO ONE Számítástechnikai Zrt.

CIO KUTATÁS

TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?

Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »

Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.