Ma már közhely, hogy a neten hozzáférhető felhasználói vélemények komoly hatással vannak az eladásokra, legyen szó bármiről a használati cikkektől egészen a különböző szolgáltatásokig. A különböző felmérések nyilván más-más eredményt hoznak, de a trendet mindegyik visszaigazolja: ebben az összefoglalóban például olyan statisztikákat idéznek, amelyek szerint tízből kilenc vásárló elismeri, hogy a többi vélemény befolyásolni szokta a döntését, tízből heten pedig arról is beszámolnak, hogy magabiztosabban költi el a pénzét, ha másoktól előzetesen pozitív megerősítést kap.
A kézenfekvő probléma mindezzel kapcsolatban, hogy a megfelelő felületeket elárasztják a névtelenül elhelyezett, manipulatív üzenetek, amelyeket ma már nem ritkán automatizált megoldásokkal generálnak. A harmadik féltől származó, rosszhiszemű értékelések szűrése egyre összetettebb és erőforrás-igényesebb feladat, amire legutóbb a University of Washington és a Hartman Group tudósai adtak előremutató választ – természetesen a mesterséges intelligencia és a gépi tanulás segítségével.
Az MI-ket nem kell ruházni, és most az etetésüket is megoldják
A héten publikált kutatási anyag egyértelmű osztályozási kérdésnek nevezi a kamu és a valódi vélemények elkülönítését, ami ma már általános gondot jelent az e-kereskedelem, a közösségi média, az utazási vagy a fogyasztói értékelő oldalak működésében. Itt a hatékony technikák kifejlesztését eddig nem is igazán az arra alkalmas technológia, sokkal inkább a szükséges méretű és megfelelően osztályozott adatkészletek hiánya okozta – a szakemberek most a spamGAN néven hivatkozott MI-rendszert javasolják a nehézségek feloldására.
A GAN (generative adversarial networks) rövidítéssel két neurális hálózat közös működésére épülő rendszereket szoktak jelölni, amelyek közül az egyik hálózat mindig a generátor (valamilyen információ létrehozója), a másik pedig a diszkriminátor (az információ értékelője). Utóbbi azt próbálja meghatározni, hogy a való világból származó minták hogyan viszonyulnak a másik hálózat által előállított mintákhoz, a visszacsatolás révén pedig az előbbi hálózat folyamatosan tanul, és egyre jobb eredményekre lesz képes.
Ilyen megoldásról számoltunk be nemrég az Nvidia fejlesztése kapcsán is, ahol a GAN technológiával a mesterséges intelligencia teljesen élethűnek látszó emberi arcokat képes létrehozni, vagy igényszerint módosíthatja is a valódi képeket. Bár apróbb hiányosságok abban az esetben is felmerültek, a rendszer ezektől függetlenül ijesztően hatékonynak tűnt – a spamGAN működése most a maga területén hasonlóan ígéretes, miközben választ adhat a rendszerek tanításához szükséges adatkészletek dilemmájára is.
Annyira jól hamisít majd, hogy alig lesz szükség valódi adatokra
A részben felügyelt tanulási technikára (semi-supervised learning) alapuló megközelítés együttesen alkalmazza a nem osztályozott és a sokkal szerényebben adagolt osztályozott adatokat, előrelépést hozva a tanulási folyamat pontosságában. A fenti módszerrel a generátor mondatokat gyárt, a diszkriminátor ezekről megpróbálja bebizonyítani, hogy nem hitelesek, a visszajelzés pedig folyamatosan növeli a generátor osztályozási képességét.
A rendszer tanításához körülbelül 800 darab valódi és 800 darab hamis felhasználói értékelést használtak a TripAdvisor chicagói szállodákat bemutató oldalairól és az Amazonról. A spamGAN-nel a szavak szintjén tokenizált szövegek 80 százalékát dolgoztatták fel, a maradék 20 százalékot pedig az MI-model teljesítményének validációjához haszálták. A tíz alkalommal megismételt kísérletben a rendszer állítólag 71 és 86 százalék közötti pontosságot ért el, miközben a tanításához használt osztályozott adatok aránya alig 10 százalékos volt.
Ez röviden annyit jelent, hogy a spamGAN sokkal kisebb erőfeszítéssel tanítható, és magasabb hatékonysággal működik, mint az ilyen célú megoldások többsége. A kutatók most más adatkészletekkel és szofisztikáltabb osztályozási rendszerrel folytatják a kísérleteket, amelyek végső célja a véleményszpem (opinion spam) jellemzőinek és a szpemmerek viselkedésének MI alapú feldolgozása lenne. Ez nem csak más, alapvetően a manuális azonosításra és heurisztikára épülő kutatásokat váltana ki, de a spamGAN idővel képes lehet saját maga is előállítani jól tipizált szpem- és nem-szpem bejegyzéseket, amivel mesterségesen generálhatnak adatokat a hiányos mérési alapokkal rendelkező esetekhez.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak