Ne várjunk sokat, ha ócska módon tanítják a mesterséges intelligenciát

Bitport2021.07.09.Cloud & big data

A modellek betanítására használt adatkészletek alapvető és igen nagy eltéréseket mutatnak, de még ez sincs megfelelően dokumentálva – állítja egy nemrég közzétett kutatás.

Az ellenőrzött gépi tanulás (supervised machine learning), amelyben a gépi tanuló modellek tanítására előre felcímkézett adatkészleteket alkalmaznak, csak annyira lehet hatékony, mint amilyen minőséget a szóban forgó adatkészlet képvisel – derül ki a Quantitative Science Studies által megjelentetett tanulmányból. Ebben eddig semmi meglepő nincs, a Webster Pacific tanácsadó egyetemi kutatókkal közösen készített anyagában azonban azt is megvizsgálták, hogy az MI témájú kutatások mennyiben felelnek meg a minták informatív felcímkékézésével kapcsolatos legjobb gyakorlatoknak, különös tekintettel az emberi munkával feldolgozott adatkészletekre.

A kutatás megállapítja, hogy ezekben a felcímkézett adatok típusai igen széles skálán mozognak, kezdve azzal, hogy a tanulmányok nagyobbik része egyáltalán nem ad megfelelő információt arról, hogy pontosan honnan származnak a felhasznált adatok, vagy ki végezte el azok felcímkézését. Bár az ilyen adatkészleteket általában megfeleltetik a mérési alapok ismert eredményeinek (ground truth), a gyakorlatban tartalmazhatnak, és tartalmaznak is hibákat, ahogy az összeállításukra használt folyamatok hibái leszivárognak a tesztelésre használt részhalmazokba.

A VentureBeat beszámolója ezzel összefüggésben az MIT nemrég közzétett tanulmányát idézi, amelyben több milliárdnyi rosszul felcímkézett mintát azonosítottak a kereskedelmi rendszerek betanítására alkalmazott adatkészletekben. Ezek a hibák pedig arra késztethetik a tudósokat, hogy helytelen következtetéseket vonjanak le róla, mely modellek teljesítenek a legjobban a való világban történő felhasználásban, aláásva a benchmarkok hitelességét is.

A fent idézett kutatás szerzői összesen 141 darab MI témájú anyagot vizsgáltak különböző tudományterületeken, beleértve a társadalomtudományokat, a humán tudományokat, az orvosbiológiai és élettudományokat, valamint a fizikai és környezettudományokat is. Az összes cikk 41 százaléka hivatkozott már ismert, emberi munkával összeállított adatkészletekre, 27 százalékukban használtak hasonló, de új adatkészleteket, 5 százalékukban pedig nem jelölték meg, hogy pontosan mivel dolgoztak. Gépi címkézésről a fennmaradó 27 százaléknál volt csak szó.

Nincs infó, vagy van, de minek

Az emberek által címkézett adatokat használó projekteknek (vagyis a projektek nagy többségének) mindössze a fele tért ki arra, hogy a humán munkaerő kapott-e olyan dokumentumokat vagy videókat, amelyek útmutatásokat, definíciókat és példákat tartalmaztak, és amelyekre munkája során támaszkodhatott. Sőt a mérőszámokban már annak az értékelésében is nagy eltérések mutatkoztak, hogy az annotátorok mennyiben értettek egyet az adott címkék jelölésében – ha egyáltalán a kutatási anyagok kitértek erre a nem elhanyagolható szempontra.

Ennek kapcsán pedig régóta téma, hogy a címkézés független felhasználók nagy csoportjának való kiszervezése (crowdsourcing) milyen nyilvánvaló csapdákkal van tele. Ahogy azt több esetben is igazolták, a kulturális vagy társadalmi kiegyensúlyozatlanság is egyértelműen visszaköszönk az adatkészletek minőségében: ha mondjuk az a feladat, hogy ki kell választani, melyik képen szerepel egy esküvő vagy azon belül is a vőlegény, azt az amerikaiak sokkal pontosabban értékelik, mint mondjuk a pakisztáni vagy etióp felhasználók. Ennek pedig az az oka, hogy valószínűleg a felcímkézésre váró képek között is eleve nyugati, és nem pakisztáni vagy etióp esküvői felvételek vannak.

Egy másik fontos dolog, hogy a címkézést végző emberi munkaerő szempontjából rendkívül monoton és rosszul fizetett tevékenységről van szó: a népszerű ImageNet például 2 dolláros medián órabért kínál érte. A legtöbb publikáció azonban nem foglalkozik ilyesmivel, és semmilyen utalást nem tesz az osztályozó munka minőségére, és közvetlen hivatkozásokat sem tartalmaz a modellek tanításához felhasznált adatkészletekre. Ez mások mellett a reprodukálhatóság tekintetében is komoly problémákat okoz, és már az is kiderült, hogy a természetes nyelvek feldolgozására szolgáló modellek válaszainak nagy része megtalálható a benchmark betanítási készletekben, vagyis az MI modellek egyszerűen csak megjegyezi az ott szereplő válaszokat.

Ahogy a mostani kutatás is megállapítja, a reprodukálhatóság ezen a területen is alapvető követelmény lenne, márpedig az adatkészletek felcímkézéséről szólva nagyon sok nyitott kérdés van ezzel kapcsolatban. Azt már teljesen igazoltnak látják, hogy a humán munkára alapuló címkézés alapvető és igen nagy eltéréseket mutat, nem beszélve az adatkészletek gondozásáról vagy a kutatások dokumentálásáról. A minőségi változást az együttműködésben látják a folyamat összes résztvevőjétől (az adattudósoktól az oktatóktól, a szabályozóktól, a tudományos kiadóktól vagy akár a kutatások finanszírozóitól), amelynek hiányában nehezen tartják elképzelhetőnek az adatok minőségének javulását.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Szabadon kipróbálható a Google legfejlettebb videógeneráló modellje

A YouTube videók millióin pallérozott Veo 3 képességeit a Google Cloud részeként mostantól bárki letesztelheti.

Hirdetés

Így újult meg Magyarország leggyorsabb mobilhálózata

Közel 100 milliárd forintos beruházással, a rádiós és maghálózat teljes modernizációjával zárult le a Yettel történetének egyik legnagyobb műszaki fejlesztése.

A hónap témája

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

A kompromittált rendszerek, a dark weben felbukkanó ügyféladatok vagy a zsarolóvírus-kampányok következményei már a vezérigazgatói és pénzügyi igazgatói irodában csapódnak le – jogi, reputációs és üzleti szinten is. Lehet és kell is védekezni ellene.

a melléklet támogatója a One Solutions

Hirdetés

Cyber Threat Intelligence: üzleti előny a sötét adatokból

Egyetlen kompromittált jelszó. Egy belépési pont, amit már nem használnak. Egy korábbi alkalmazott adatszivárgása. Ezek ma már nem csupán technikai hibák, hanem valós üzleti fenyegetések, amelyek a digitális alvilág piacán előbb bukkannak fel, mint ahogy a cég egyáltalán észrevenné.

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Szabadon kipróbálható a Google legfejlettebb videógeneráló modellje

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia