Úgy tűnik, hogy a több területen is bizonyított GAN rendszerek a véleményszpemmerek kiszűrésére is kiválóan alkalmasak, ráadásul nincs is szükségük túl sok adatra, hogy megtanulják elkülöníteni a valódi és a hamis információt.

Ma már közhely, hogy a neten hozzáférhető felhasználói vélemények komoly hatással vannak az eladásokra, legyen szó bármiről a használati cikkektől egészen a különböző szolgáltatásokig. A különböző felmérések nyilván más-más eredményt hoznak, de a trendet mindegyik visszaigazolja: ebben az összefoglalóban például olyan statisztikákat idéznek, amelyek szerint tízből kilenc vásárló elismeri, hogy a többi vélemény befolyásolni szokta a döntését, tízből heten pedig arról is beszámolnak, hogy magabiztosabban költi el a pénzét, ha másoktól előzetesen pozitív megerősítést kap.

A kézenfekvő probléma mindezzel kapcsolatban, hogy a megfelelő felületeket elárasztják a névtelenül elhelyezett, manipulatív üzenetek, amelyeket ma már nem ritkán automatizált megoldásokkal generálnak. A harmadik féltől származó, rosszhiszemű értékelések szűrése egyre összetettebb és erőforrás-igényesebb feladat, amire legutóbb a University of Washington és a Hartman Group tudósai adtak előremutató választ – természetesen a mesterséges intelligencia és a gépi tanulás segítségével.

Az MI-ket nem kell ruházni, és most az etetésüket is megoldják

A héten publikált kutatási anyag egyértelmű osztályozási kérdésnek nevezi a kamu és a valódi vélemények elkülönítését, ami ma már általános gondot jelent az e-kereskedelem, a közösségi média, az utazási vagy a fogyasztói értékelő oldalak működésében. Itt a hatékony technikák kifejlesztését eddig nem is igazán az arra alkalmas technológia, sokkal inkább a szükséges méretű és megfelelően osztályozott adatkészletek hiánya okozta – a szakemberek most a spamGAN néven hivatkozott MI-rendszert javasolják a nehézségek feloldására.

A GAN (generative adversarial networks) rövidítéssel két neurális hálózat közös működésére épülő rendszereket szoktak jelölni, amelyek közül az egyik hálózat mindig a generátor (valamilyen információ létrehozója), a másik pedig a diszkriminátor (az információ értékelője). Utóbbi azt próbálja meghatározni, hogy a való világból származó minták hogyan viszonyulnak a másik hálózat által előállított mintákhoz, a visszacsatolás révén pedig az előbbi hálózat folyamatosan tanul, és egyre jobb eredményekre lesz képes.

Ilyen megoldásról számoltunk be nemrég az Nvidia fejlesztése kapcsán is, ahol a GAN technológiával a mesterséges intelligencia teljesen élethűnek látszó emberi arcokat képes létrehozni, vagy igényszerint módosíthatja is a valódi képeket. Bár apróbb hiányosságok abban az esetben is felmerültek, a rendszer ezektől függetlenül ijesztően hatékonynak tűnt – a spamGAN működése most a maga területén hasonlóan ígéretes, miközben választ adhat a rendszerek tanításához szükséges adatkészletek dilemmájára is.

Annyira jól hamisít majd, hogy alig lesz szükség valódi adatokra

A részben felügyelt tanulási technikára (semi-supervised learning) alapuló megközelítés együttesen alkalmazza a nem osztályozott és a sokkal szerényebben adagolt osztályozott adatokat, előrelépést hozva a tanulási folyamat pontosságában. A fenti módszerrel a generátor mondatokat gyárt, a diszkriminátor ezekről megpróbálja bebizonyítani, hogy nem hitelesek, a visszajelzés pedig folyamatosan növeli a generátor osztályozási képességét.

A rendszer tanításához körülbelül 800 darab valódi és 800 darab hamis felhasználói értékelést használtak a TripAdvisor chicagói szállodákat bemutató oldalairól és az Amazonról. A spamGAN-nel a szavak szintjén tokenizált szövegek 80 százalékát dolgoztatták fel, a maradék 20 százalékot pedig az MI-model teljesítményének validációjához haszálták. A tíz alkalommal megismételt kísérletben a rendszer állítólag 71 és 86 százalék közötti pontosságot ért el, miközben a tanításához használt osztályozott adatok aránya alig 10 százalékos volt.

Ez röviden annyit jelent, hogy a spamGAN sokkal kisebb erőfeszítéssel tanítható, és magasabb hatékonysággal működik, mint az ilyen célú megoldások többsége. A kutatók most más adatkészletekkel és szofisztikáltabb osztályozási rendszerrel folytatják a kísérleteket, amelyek végső célja a véleményszpem (opinion spam) jellemzőinek és a szpemmerek viselkedésének MI alapú feldolgozása lenne. Ez nem csak más, alapvetően a manuális azonosításra és heurisztikára épülő kutatásokat váltana ki, de a spamGAN idővel képes lehet saját maga is előállítani jól tipizált szpem- és nem-szpem bejegyzéseket, amivel mesterségesen generálhatnak adatokat a hiányos mérési alapokkal rendelkező esetekhez.

Közösség & HR

Átteszik a vállalati IE-funkciókat a chromiumos Edge-be

A fejlesztők már azt is láthatják, mit pakolt át eddig a nagyvállalati funkciókból a Microsoft.
 
Könnyen érthető, de fejlett védelmi megoldások nélkül nehezen elhárítható módszert követnek a bizalmas információk ellopására utazó kiberbűnözők.
A VISZ éves INFOHajó rendezvényén az agilitás nagyvállalati alkalmazhatósága és tanulhatósága volt az egyik kerekasztal témája. Az ott elhangzottakat gondolta tovább Both András (Idomsoft), a kerekasztal egyik résztvevője.

Ez a nyolc technológia alakítja át a gyártást

a Bitport
a Vezető Informatikusok Szövetségének
médiapartnere

Az Oracle átáll a féléves verzió-életciklusra, és megszünteti az ingyenes támogatást üzleti felhasználóknak. Mire kell felkészülni? Dr. Hegedüs Tamás licencelési tanácsadó (IPR-Insights Hungary) írása.
Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthetően, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport kilencedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2019 Bitport.hu Média Kft. Minden jog fenntartva.