Az Alphabet Deep Mind részlege rendszeresen szállítja a látványos eredményeket a mesterséges intelligencia kutatásában. Legutóbb az előző év végén számoltunk be a MuZero nevű modell eredményeiről, amely úgy éri el rövid idő után a legjobb emberi gójátékosokat is simán felülmúló AlphaZero szintjét, hogy a játékok szabályait magától tanulja meg, és a tanulás során is csak saját maga ellen játszik. A kutatók szerint mindennek nagy jelentősége lesz a sokkal gyakorlatibb MI-felhasználások területén is, ahol nem minden esetben van lehetőség megfelelő szimulációk futtatására, miközben az eddigi tervező algoritmusok úgy válnak hatékonnyá, hogy készen kapnak valamilyen tudásanyagot – ha mást nem, legalább a szabályokat, amelyekhez igazodniuk kell.
Az elmúlt években a DeepMind kutatásainak egyik legérdekesebb területe volt a neurális hálózatok kooperatív és kompetitív viselkedésének vizsgálata: ezek során a tudósok olyasmit elemeznek, mint hogy az algoritmusok az erőforráshiányos környezetekben a versengő vagy az együttműködő megoldásokra lesznek-e hajlamosak. Néhány éve jelent meg a cég egyik beszámolója, amelyből kiderült, hogy az MI-k az erre a célra készített gyűjtögetős játékban az erőforrások fogyatkozásával egyre gyakrabban rúgják fel az alapértelmezett tűzszüneteket, a kevésbé intelligens neurális hálózatok ráadásul hajlamosabbak voltak az együttműködő viselkedésre a nagyobb, bonyolultabb rendszereknél.
Ugyanebben szó volt egy másik feladatról, egy mozgó pixel levadászásáról is: a feladatot ott is az összetettebb hálózatok értették meg gyorsabban, és a közösen könnyebben elérhető cél érdekében előnyben részesítették a kooperációt, a feltételek változásával azonban már nem haboztak megtámadni a riválisaikat. Az egyik cél persze itt is az emberi viselkedés modellezése lenne, a több szereplős nulla összegű játszmák vizsgálata pedig ebben az összefüggésben olyan kérdéseket is felvet, amelyek más feladatoknál – akár a már említett gójátéknál – fel sem merülnek, mivel annak nincsenek az együttműködésre is képes résztvevői. A verseny ugyanakkor meghatározó eleme a való világban működő rendszerek jó részének, ezzel kapcsolatban pedig a DeepMind éppen néhány napja adott ki egy újabb anyagot.
Jöhetnek az önszabályozó szerződések
A két résztvevős, véges zéró összegű játékok elemzése és az optimális stratégia matmatikai meghatározása a dokumentum szerint egyszerű feladat, figyelembe véve a maximális veszteség minimalizálására (vagy ha tetszik, a minimális nyereség maximalizálására) irányuló, minmax elvnek is nevezett döntési szabályokat. A gyakorlati konfliktusok azonban csak nagyon ritkán két résztvevősek, és a nulla összegű játszmák sem gyakoriak – különösen, ha társadalmi jelenségeket vagy képességeket próbálnak modellezni. Ehhez a DeepMind szerint tovább kell lépni a gójátékon és az ahhoz hasonló interakciókon, amihez több irányba is el lehet indulni, a mostani publikáció pedig ehhez járulna hozzá három fontos területen.
Elsősorban az együttműködés, a szövetségek megkötésének és febontásának matematikai meghatározásáról van szó, amellyel kapcsolatban azután bemtatják, hogy a megerősítéses tanulásra épülő legmodernebb modellek miért vallanak kudarcot ebben a tekintetben, ha egyszer a két résztvevős nulla összegű játszmákban kiváló eredményeket produkálnak. Harmadszor bevezeti a szerződések fogalmát, ami a való világra jellemző és megfelelően indokolt módszer az egyes ágensek közti együttműködések felállítására. A legfontosabb probléma ugyanis a csapatok vagy szövetségek dinamikus formálódása és felbomlása, amelyek közül már az első is egy nehezen megfogható dolog: a játékosok mások legyőzésére állnak össze egymással, de a közös cél nem feltétlenül eseik egybe minden tekintetben a résztvevők önérdekével. Folyamatos döntésekre van szükség a csapatokhoz való csatlakozásról és a belőlük való kiválásról, miközben ez önmagában is formálja az egyes csapatok startégiáját.
A dokumentumban ugyancsak egy játékon keresztül jutnakarra a következtetésre, hogy az optimális döntéseket ilyen esetekben a kölcsönös bizalmatlanság akadályozza meg, így be kell vezetni valamilyen intézményt a kooperatív viselkedés támogatására. Az MI-kre vetítve a szerződések így három lépésből állnak: ilyen a partner megjelölése, a partner számára javasolt akció, illetve a saját felajánlás. Amennyiben két játékos kölcsönösen megegyező ajánlatot tesz a másiknak, kötelező érvényű szerződés jön létre, vagyis a környezet (a játékszabályok) kikényszerítik az egyezség betartását. A kutatásból kiderül, hogy ebben a rendszerben a játékosok viselkedése is teljesen megváltozott.
A szerzők ennek alapján megállapítják, hogy a felvázolt modell több irányban is alapja lehet a munka folytatásának, elsősorban egy szélesebb állapottérben vizsgálva a szerződések működését. Ez általánosságban azt jelenti, hogy egy oylan rendszert próbálnak kidolgozni, amelyben úgy érvényesülhet a több szereplős tanulás dinamikája, hogy közvetlen mechanizmusokra lenne szükség a szerződések betartásának kikényszerítésére. A megközelítés a kutatók reményei szerint önmagukat erősítő, értékes visszacsatolásokhoz vezetne a mesterséges intelligenciától a társadalmi vagy gazdasági folyamatokig. Ugyanilyen fontosnak tartják a szerződések rendszerének skálázását, hogy a kétoldalú együttműködéseken túl akár a játékok minden szereplője megállapodhasson egymással, megalapozva egy közös nyelvezetet is az ágensek interakciójának elősegítésére.
A részletek a DeepMind kutatóinak Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games című publikációjában itt érhetők el.
A NIS2-megfelelőség néhány technológiai aspektusa
A legtöbb vállalatnál a megfeleléshez fejleszteni kell a védelmi rendszerek kulcselemeit is.
CIO KUTATÁS
TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?
Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »
Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak