Az internet nem csak olyan megnyilvánulásokkal van tele, amelyek célja egyének vagy csoport megalázása, megfélemlítése és a velük szembeni előítéletes fellépés kiváltása. Egyre szaporodnak ugyais azok az algoritmusok, amelyek a különféle online platformokon a gyűlöletbeszédnek nevezett jelenséget próbálják azonosítani és jelezni, automatizálva a tartalom ilyen irányú szűrését, ami a hagyományos módszerekkel egyre kevésbé tűnik kivitelezhetőnek.
A rossz hír, hogy egyelőre a gépek sem biztosítanak értékelhető megoldást a problémákra, bizonyos esetekben pedig éppen az öntanuló rendszerek azok, amelyek magukra veszik és terjesztik a rossz mintákat. A University of Washington, a Carnegie Mellon University és az Allen Institute for Artificial Intelligence szakembereinek közös kutatásából például kiderül, hogy az afrikai-amerikai angol nyelvváltozatot (AAE) nemigen tudják megfelelően kezelni.
A kutatás alapján az egyes dialektusok közti különbségekre érzéketlen feldolgozás komoly félreértésekhez vezet, ami ebben az esetben konkrétan etnikai jellegű hátrányos megkülönböztetéshez vezet, nyilvánvalóan ellentétesen az algoritmusok működtetőinek eredeti szándékával. A megvizsgált adatkészletekben az AAE sok jellemzője olyan markernek számít, ami az értékeléseknél felfelé löki az egyes megnyilvánulások toxikus hatását jelző értékeket.
Akinél kalapács van, az mindent szögnek néz
Mindennek alapján az így tanított modellek átveszik és erősítik ezt a fajta egyolalúságot: ahogy az anyagból kiderül, a Twitteren a magukat afroamerikaiként meghatározó felhasználók üzeneteit a rendszer kétszer gyakrabban azonosítja offenzív megszólalásként a többiekéhez képest. Az ilyen és ehhez hasonló dialektusok figyelembe vétele ebből következően nagyban javítja a szűrők hatékonyságát, amit a kutatók a gyakolatban is igazolnak.
A twitteres példák között szerepel mások mellett az "I saw him yesterday" kifejezés, amit 6 százalékos, elhanyagolható valószínűséget kap a bejegyzés toxicitását súlyozó skálán. Ezzel szemben az "I saw his ass yesterday" kifejezés esetében ugyanez az érték 95 százalékosra ugrik, annak ellenére, hogy a városi környezetben mindennaposnak számító AAE nyelvváltozatban az amúgy nem túl elegáns kifejezés agressziót semmiképpen sem hordoz.
A kutatók egyébként több mint 120 ezer olyan Twitter-bejegyzést vizsgáltak, amelyet a Perspective API nevű, zaklató vagy megfélemlítő bejegyzések szűrését végző eszköz kártékonynak minősített. A Google Jigsaw egységénél fejlesztett Perspective a kutatás egyik szerzője szerint meglepően és ijesztően pontosan felismeri a faji vagy nemi összefüggésben romboló megnyilvánulásokat a webről származó heterogén adattömegben, de a nyelvváltozatok vagy a kontextus félreértelmezése miatt a riasztások 46 százaléka bizonyult tévesnek a fenti mintán, ami ugyancsak felülmúlta a várakozásokat.
Az MI az emberekkel együttműködve hatékony
A The Register riportja megszólaltatja a kutatás egy másik résztvevőjét, aki óvatosságra int a hasonlóan általános jellegű technológiai implementációkkal szemben. Az egyes kommunikációs platformok ugyanis fokozódó nyomás alatt állnak a káros tartalom moderációjával és törlésével kapcsolatban, az ehhez használt eljárásoknak azonban könnyen áldozatul eshetnek a legkülönfélébb kisebbségek. A következtetést összefüggésbe helyezik az emberi moderátorok körében végzett tesztek, amelyek során az algoritmus által megjelölt kommenteket már csak fele részben tartották offenzívnek, és ez az arány még lejjebb olvadt, amikor a kommentek szerzőinek etnikumát és dialektusát is figyelembe vették.
A kutatók szerint jól látszik, hogy rossz irány, amikor a hatékonyságra hivatkozva teljesen ki akarják vonni az emberi munkaerőt az online tartalom ellenőrzéséből. A humán moderátorok természetesen ugyanúgy hibáznak a maguk módján, különösen, ha figyelembe vesszük, hogy gyakran milyen körülmények között kell dolgozniuk. A leginkább kifizetődő, hasonlóan sok más területhez, itt is az emberek és a mesterséges intelligencia együttműködése lenne, ahol mindenki olyan feladatokat végez, amelyekben jobb a másiknál.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak