A modellek betanítására használt adatkészletek alapvető és igen nagy eltéréseket mutatnak, de még ez sincs megfelelően dokumentálva – állítja egy nemrég közzétett kutatás.

Az ellenőrzött gépi tanulás (supervised machine learning), amelyben a gépi tanuló modellek tanítására előre felcímkézett adatkészleteket alkalmaznak, csak annyira lehet hatékony, mint amilyen minőséget a szóban forgó adatkészlet képvisel – derül ki a Quantitative Science Studies által megjelentetett tanulmányból. Ebben eddig semmi meglepő nincs, a Webster Pacific tanácsadó egyetemi kutatókkal közösen készített anyagában azonban azt is megvizsgálták, hogy az MI témájú kutatások mennyiben felelnek meg a minták informatív felcímkékézésével kapcsolatos legjobb gyakorlatoknak, különös tekintettel az emberi munkával feldolgozott adatkészletekre.

A kutatás megállapítja, hogy ezekben a felcímkézett adatok típusai igen széles skálán mozognak, kezdve azzal, hogy a tanulmányok nagyobbik része egyáltalán nem ad megfelelő információt arról, hogy pontosan honnan származnak a felhasznált adatok, vagy ki végezte el azok felcímkézését. Bár az ilyen adatkészleteket általában megfeleltetik a mérési alapok ismert eredményeinek (ground truth), a gyakorlatban tartalmazhatnak, és tartalmaznak is hibákat, ahogy az összeállításukra használt folyamatok hibái leszivárognak a tesztelésre használt részhalmazokba.

A VentureBeat beszámolója ezzel összefüggésben az MIT nemrég közzétett tanulmányát idézi, amelyben több milliárdnyi rosszul felcímkézett mintát azonosítottak a kereskedelmi rendszerek betanítására alkalmazott adatkészletekben. Ezek a hibák pedig arra késztethetik a tudósokat, hogy helytelen következtetéseket vonjanak le róla, mely modellek teljesítenek a legjobban a való világban történő felhasználásban, aláásva a benchmarkok hitelességét is.

A fent idézett kutatás szerzői összesen 141 darab MI témájú anyagot vizsgáltak különböző tudományterületeken, beleértve a társadalomtudományokat, a humán tudományokat, az orvosbiológiai és élettudományokat, valamint a fizikai és környezettudományokat is. Az összes cikk 41 százaléka hivatkozott már ismert, emberi munkával összeállított adatkészletekre, 27 százalékukban használtak hasonló, de új adatkészleteket, 5 százalékukban pedig nem jelölték meg, hogy pontosan mivel dolgoztak. Gépi címkézésről a fennmaradó 27 százaléknál volt csak szó.

Nincs infó, vagy van, de minek

Az emberek által címkézett adatokat használó projekteknek (vagyis a projektek nagy többségének) mindössze a fele tért ki arra, hogy a humán munkaerő kapott-e olyan dokumentumokat vagy videókat, amelyek útmutatásokat, definíciókat és példákat tartalmaztak, és amelyekre munkája során támaszkodhatott. Sőt a mérőszámokban már annak az értékelésében is nagy eltérések mutatkoztak, hogy az annotátorok mennyiben értettek egyet az adott címkék jelölésében – ha egyáltalán a kutatási anyagok kitértek erre a nem elhanyagolható szempontra.

Ennek kapcsán pedig régóta téma, hogy a címkézés független felhasználók nagy csoportjának való kiszervezése (crowdsourcing) milyen nyilvánvaló csapdákkal van tele. Ahogy azt több esetben is igazolták, a kulturális vagy társadalmi kiegyensúlyozatlanság is egyértelműen visszaköszönk az adatkészletek minőségében: ha mondjuk az a feladat, hogy ki kell választani, melyik képen szerepel egy esküvő vagy azon belül is a vőlegény, azt az amerikaiak sokkal pontosabban értékelik, mint mondjuk a pakisztáni vagy etióp felhasználók. Ennek pedig az az oka, hogy valószínűleg a felcímkézésre váró képek között is eleve nyugati, és nem pakisztáni vagy etióp esküvői felvételek vannak.

Egy másik fontos dolog, hogy a címkézést végző emberi munkaerő szempontjából rendkívül monoton és rosszul fizetett tevékenységről van szó: a népszerű ImageNet például 2 dolláros medián órabért kínál érte. A legtöbb publikáció azonban nem foglalkozik ilyesmivel, és semmilyen utalást nem tesz az osztályozó munka minőségére, és közvetlen hivatkozásokat sem tartalmaz a modellek tanításához felhasznált adatkészletekre. Ez mások mellett a reprodukálhatóság tekintetében is komoly problémákat okoz, és már az is kiderült, hogy a természetes nyelvek feldolgozására szolgáló modellek válaszainak nagy része megtalálható a benchmark betanítási készletekben, vagyis az MI modellek egyszerűen csak megjegyezi az ott szereplő válaszokat.

Ahogy a mostani kutatás is megállapítja, a reprodukálhatóság ezen a területen is alapvető követelmény lenne, márpedig az adatkészletek felcímkézéséről szólva nagyon sok nyitott kérdés van ezzel kapcsolatban. Azt már teljesen igazoltnak látják, hogy a humán munkára alapuló címkézés alapvető és igen nagy eltéréseket mutat, nem beszélve az adatkészletek gondozásáról vagy a kutatások dokumentálásáról. A minőségi változást az együttműködésben látják a folyamat összes résztvevőjétől (az adattudósoktól az oktatóktól, a szabályozóktól, a tudományos kiadóktól vagy akár a kutatások finanszírozóitól), amelynek hiányában nehezen tartják elképzelhetőnek az adatok minőségének javulását.

Cloud & big data

Így árasztotta el az amerikai híroldalakat a pornó

Miután a VidMe nevű videómegosztó domainjét megvette egy pornós cég, több lap oldalán is felnőtt tartalmak kezdtek megjelenni.
 
Hirdetés

Belépő szinten dob nagyot a tároláson a Dell EMC PowerStore 500

Garantált 4:1-es deduplikációval, nagyobb teljesítménnyel, frissített szoftveres képességeivel teszi magasra a lécet a tárolókörnyezet modernizálásában és a gyorsan fejlődő adatigények kiszolgálásában a Dell EMC PowerStore. Beleértve az all flash termékcsalád legkisebb tagját is, amely megérkezett Magyarországra.

Hirdetés

Növekvő elvárások a szállodai Wi-Fi hálózatokkal szemben – hogyan biztosítható a versenyelőny?

A Wi-Fi ma már szinte valamennyi szálláshelyen alapvető szolgáltatás. Ezzel arányosan a vendégértékeléseknek is javuló tendenciát kellene mutatniuk – mégsem ez a helyzet. Mit hiányolnak a vendégek, és hogyan biztosíthatja egy szálloda a legújabb vendégigényeknek történő megfelelőséget? Ennek járt utána egy a lezárások után készült friss kutatás.

Radikális átalakulást és innovációs kényszert hozott a szállodaiparban a COVID.

a melléklet támogatója a TP-Link

CIO KUTATÁS

A PANDÉMIA HATÁSAIRÓL

Az ön véleményére is számítunk a Corvinus Egyetem Informatikai Intézetével végzett kutatásunkban. Segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

MEHET

A KPMG immár 22. alkalommal kiadott CIO Survey jelentése szerint idén az informatikai vezetők leginkább a digitalizációra, a biztonságra és a szoftverszolgáltatásokra koncentráltak.

Használtszoftver-kereskedelem a Brexit után

Az EU Tanácsa szerint összeegyeztethető a backdoor és a biztonság. Az ötlet alapjaiban hibás. Pfeiffer Szilárd fejlesztő, IT-biztonsági szakértő írása.
Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizenegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2021 Bitport.hu Média Kft. Minden jog fenntartva.