Már több int három és fél éve, hogy az Alphabet DeepMind részlege által fejlesztett AlphaGo mesterséges intelligencia legyőzte a világ egyik legerősebb gójátékosát. A dél-koreai I Szedol a legfrissebb hírek szerint éppen ezzel indokolta visszavonulását a professzionális versenyzéstől: a Jonhap hírügynökségnek nyilatkozva kifejtette, hogy az MI legyőzhetetlen, és erre ma már akkor sem lehet képes senki, ha máskülönben hatalmas erőfeszítések árán a legmagasabban jegyzett emberi játékossá válik.
Az AlphaGo 2016-os sikere fontos lépcső volt a mesterséges intelligencia fejlődésében, mivel a gójátékban nem lehet ilyen sikereket elérni pusztán a számítógépek gyorsan növkvő számítási kapacitására alapozva. Ahogy akkor is írtuk, a DeepMind megközelítése újdonságnak számított a rendszer ideghálót modellező felépítése és a sztochasztikus keresés kombinációjával.
A DeepMind 2017-ben már azzal került be a hírekbe, hogy az AlphaGo AlphaZero nevű változata 100-0 arányban verte meg a rendszer korábbi, a dél-koreai profi versenyzőt is legyőző verzióját. Ez ráadásul úgy sikerült neki, hogy mindössze három nappal azelőtt kezdték megtanítani a játékra, és a tanulás során csak saját csak a maga elleni, kezdetben még véletlenszerű gyakorló mérkőzéseket játszott.
Tavaly a Science magazinban közölték, hogy az AlphaZero a gó, a sakk és a japán sakknak is nevezett sógi önálló betanulására is képes, minden esetben úgy, hogy a rövid folyamat végén gond nélkül képes megverni a legjobb emberi játékosokat. Néhány napja pedig beszámoltak a MuZero nevű modell eredményeiről is, amely annyiben jelent újabb előrelépést, hogy a játékok szabályokat is egyedül tanulja meg, és rövid idő után így hozza az AlphaZero teljesítményével megegyező szintet.
A kutatók szerint a látszólag apró lépésnek nagyon nagy jelentősége van, amennyiben a most alkalmazott megoldások előkészítenek egy nagy csomó sokkal konkrétabb, a való világban is bevethető MI-felhasználást. Ez azokban az esetekben érdekes, amikor nincslehetőség szimulációk futtatására, hogy azokon keresztül kommunikálják a megfelelő szabályokat és az adott környezetek dinamikáját.
Az eddigi tervező algoritmusok ugyanis, akármilyen hatékonyak, úgy értek el sikereket, hogy lészen kaptak valamilyen meglévő tudásanyagot – ha mást nem, az adott játékok szabályait vagy valamilyen pontos szimulációt.A MuZero ezzel szemben maga végez megfigyeléseket (például az Atari gójátékának állásairól készült képernyőképeket), és ezek alapján próbálja megjósolni, értékelni és súlyozni a lehetséges akciókat.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak