Az MI-k együttműködését támogató rendszeren dolgozik a DeepMind

Bitport2020.03.07.Cloud & big data

Egy nemrég megjelent publikációban arra keresik a választ, hogy a játékokban mi akadályozza az együttműködésre alapuló optimális döntéseket, és a megoldásokat hogyan lehetne kamatoztatni a gyakorlati felhasználásban is.

Az Alphabet Deep Mind részlege rendszeresen szállítja a látványos eredményeket a mesterséges intelligencia kutatásában. Legutóbb az előző év végén számoltunk be a MuZero nevű modell eredményeiről, amely úgy éri el rövid idő után a legjobb emberi gójátékosokat is simán felülmúló AlphaZero szintjét, hogy a játékok szabályait magától tanulja meg, és a tanulás során is csak saját maga ellen játszik. A kutatók szerint mindennek nagy jelentősége lesz a sokkal gyakorlatibb MI-felhasználások területén is, ahol nem minden esetben van lehetőség megfelelő szimulációk futtatására, miközben az eddigi tervező algoritmusok úgy válnak hatékonnyá, hogy készen kapnak valamilyen tudásanyagot – ha mást nem, legalább a szabályokat, amelyekhez igazodniuk kell.

Az elmúlt években a DeepMind kutatásainak egyik legérdekesebb területe volt a neurális hálózatok kooperatív és kompetitív viselkedésének vizsgálata: ezek során a tudósok olyasmit elemeznek, mint hogy az algoritmusok az erőforráshiányos környezetekben a versengő vagy az együttműködő megoldásokra lesznek-e hajlamosak. Néhány éve jelent meg a cég egyik beszámolója, amelyből kiderült, hogy az MI-k az erre a célra készített gyűjtögetős játékban az erőforrások fogyatkozásával egyre gyakrabban rúgják fel az alapértelmezett tűzszüneteket, a kevésbé intelligens neurális hálózatok ráadásul hajlamosabbak voltak az együttműködő viselkedésre a nagyobb, bonyolultabb rendszereknél.

Ugyanebben szó volt egy másik feladatról, egy mozgó pixel levadászásáról is: a feladatot ott is az összetettebb hálózatok értették meg gyorsabban, és a közösen könnyebben elérhető cél érdekében előnyben részesítették a kooperációt, a feltételek változásával azonban már nem haboztak megtámadni a riválisaikat. Az egyik cél persze itt is az emberi viselkedés modellezése lenne, a több szereplős nulla összegű játszmák vizsgálata pedig ebben az összefüggésben olyan kérdéseket is felvet, amelyek más feladatoknál – akár a már említett gójátéknál – fel sem merülnek, mivel annak nincsenek az együttműködésre is képes résztvevői. A verseny ugyanakkor meghatározó eleme a való világban működő rendszerek jó részének, ezzel kapcsolatban pedig a DeepMind éppen néhány napja adott ki egy újabb anyagot.

Jöhetnek az önszabályozó szerződések

A két résztvevős, véges zéró összegű játékok elemzése és az optimális stratégia matmatikai meghatározása a dokumentum szerint egyszerű feladat, figyelembe véve a maximális veszteség minimalizálására (vagy ha tetszik, a minimális nyereség maximalizálására) irányuló, minmax elvnek is nevezett döntési szabályokat. A gyakorlati konfliktusok azonban csak nagyon ritkán két résztvevősek, és a nulla összegű játszmák sem gyakoriak – különösen, ha társadalmi jelenségeket vagy képességeket próbálnak modellezni. Ehhez a DeepMind szerint tovább kell lépni a gójátékon és az ahhoz hasonló interakciókon, amihez több irányba is el lehet indulni, a mostani publikáció pedig ehhez járulna hozzá három fontos területen.

Elsősorban az együttműködés, a szövetségek megkötésének és febontásának matematikai meghatározásáról van szó, amellyel kapcsolatban azután bemtatják, hogy a megerősítéses tanulásra épülő legmodernebb modellek miért vallanak kudarcot ebben a tekintetben, ha egyszer a két résztvevős nulla összegű játszmákban kiváló eredményeket produkálnak. Harmadszor bevezeti a szerződések fogalmát, ami a való világra jellemző és megfelelően indokolt módszer az egyes ágensek közti együttműködések felállítására. A legfontosabb probléma ugyanis a csapatok vagy szövetségek dinamikus formálódása és felbomlása, amelyek közül már az első is egy nehezen megfogható dolog: a játékosok mások legyőzésére állnak össze egymással, de a közös cél nem feltétlenül eseik egybe minden tekintetben a résztvevők önérdekével. Folyamatos döntésekre van szükség a csapatokhoz való csatlakozásról és a belőlük való kiválásról, miközben ez önmagában is formálja az egyes csapatok startégiáját.

A dokumentumban ugyancsak egy játékon keresztül jutnakarra a következtetésre, hogy az optimális döntéseket ilyen esetekben a kölcsönös bizalmatlanság akadályozza meg, így be kell vezetni valamilyen intézményt a kooperatív viselkedés támogatására. Az MI-kre vetítve a szerződések így három lépésből állnak: ilyen a partner megjelölése, a partner számára javasolt akció, illetve a saját felajánlás. Amennyiben két játékos kölcsönösen megegyező ajánlatot tesz a másiknak, kötelező érvényű szerződés jön létre, vagyis a környezet (a játékszabályok) kikényszerítik az egyezség betartását. A kutatásból kiderül, hogy ebben a rendszerben a játékosok viselkedése is teljesen megváltozott.

A szerzők ennek alapján megállapítják, hogy a felvázolt modell több irányban is alapja lehet a munka folytatásának, elsősorban egy szélesebb állapottérben vizsgálva a szerződések működését. Ez általánosságban azt jelenti, hogy egy oylan rendszert próbálnak kidolgozni, amelyben úgy érvényesülhet a több szereplős tanulás dinamikája, hogy közvetlen mechanizmusokra lenne szükség a szerződések betartásának kikényszerítésére. A megközelítés a kutatók reményei szerint önmagukat erősítő, értékes visszacsatolásokhoz vezetne a mesterséges intelligenciától a társadalmi vagy gazdasági folyamatokig. Ugyanilyen fontosnak tartják a szerződések rendszerének skálázását, hogy a kétoldalú együttműködéseken túl akár a játékok minden szereplője megállapodhasson egymással, megalapozva egy közös nyelvezetet is az ágensek interakciójának elősegítésére.

A részletek a DeepMind kutatóinak Learning to Resolve Alliance Dilemmas in Many-Player Zero-Sum Games című publikációjában itt érhetők el.

Cloud & big data

OpenAI-incidens: olcsó reklám vagy valós veszély?

A szakértő szerint tekintsük inkább egy nagyon fontos figyelmeztetésnek.

Hirdetés

Öt kérdés, amelyet érdemes feltenni felhőplatform-választás előtt

Egy felhőplatform értékét nemcsak a szolgáltatásai határozzák meg, hanem az is, hogy egy kritikus helyzetben mennyire képes támogatni a vállalat működését.

A hónap témája

Mit kell tenni, amikor beüt a krach?

Előrelátó tervezés és meghatározott menetrend segíti az incidensek minél gyorsabb elhárítását. Ehhez azonban sok feladatot és felelősséget kell tisztázni – még jóval azelőtt, hogy bekövetkezik a baj.

a melléklet támogatója a ONE Solutions

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

OpenAI-incidens: olcsó reklám vagy valós veszély?

Mit kell tenni, amikor beüt a krach?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!