Már másfél éve, hogy az Alphabet DeepMind részlege által fejlesztett AlphaGo mesterséges intelligencia legyőzte a világ egyik legmagasabban jegyzett gójátékosát, a profi 9 danos dél-koreai I Szedolt. Ez igen látványos sikernek számított az MI-k evolúciójában, tekintve, hogy a gójátékon eddig nem sikerült a gépek számítási kapacitásának növelésével felülkerekedni. A DeepMind azonban új megközelítést alkalmazott a rendszer ideghálót modellező felépítésével és a sztochasztikus keresés kombinációjával.
Stratégiai kérdés lett az MI-k fejlesztése
Még a közelmúltban is az volt a helyzet, hogy a legjobb góprogramokat is simán elverte egy-egy ügyesebb amatőr játékos, és a többség meg volt róla győződve, hogy a sakk húsz évvel ezelőtti varázstalanítására a gó esetében csak távoli jövőben kerülhet sor. Az AlphaGo idén májusban újabb trófeát szerzett: következő áldozata az ugyancsak 9 danos kínai Ko Csie, az aktuális világranglista vezetője volt, amia gójátékot feltaláló nemzet szemében minimum felért egy mexikói null-hattal.
Ahogy arról a The New York Times információi alapján mi is beszámoltunk, ez a vereség adhatta meg a végső lökést a kínai politikának is, hogy halálosan komolyan vegye az MI-fejlesztésekben rejlő lehetőségeket, és az eddigieknél is komolyabb állami forrásokat biztosítson a jövő világgazdasági dominanciáját megalapozó fejlesztésekhez. (Donald Trump ezzel szemben éppen lefaragja a tudományos kutatások támogatását, így az MI-kutatásokat finanszírozó állami szervezetek költségvetését is.)
Februárban egyébként egy másik játék is kapitulált a mesterséges intelligencia előtt: a Carnegie Mellon University kutatói által fejlesztett Libratus egy húsz napos, no-limit heads-up Texas hold'em pókerversenyt nyert meg, négy versenyzőt is maga mögé utasítva a világ legelismertebb pókerjátékosai közül. A póker bizonyos szempontból a játékok legvégső határának számít, mivel a Jeopardy-val, a sakkal vagy akár a góval szemben hiányos információra épülő döntésekről szól.
Már nem az AlphaGo a legnagyobb király
Visszatérve a góhoz, a DeepMind programja tegnap került be ismét a hírekbe, ezúttal azonban a rendszer veresége jelentette az Alphabet kutatóinak sikerét. A rendszer legújabb, AlphaGo Zero nevű változata 100-0 arányban verte meg az Alpha Go korábbi, a dél-koreai profit is legyőző verzióját. Mindez ráadásul úgy sikerült neki, hogy mindössze három nappal azelőtt ismerkedett meg a játékkal, és tudását csak a maga ellen játszott, kezdetben még véletlenszerű gyakorló mérkőzéseken tökéletesítette.
Ez azért különösen érdekes, mert a korábbi változat a szofisztikált működés mellett még nagyban támaszkodott az emberi tudásra és tapasztalatokra, hiszen százezres nagyságrendben elemezte ki a legjobb humán játékosok játszmáit. Az AlphaGo Zero ezzel szemben kizárólag saját magától tanul, és nem csak a "Lee" változat szintjét múlja felül három nap alatt, de huszonegy nap alatt arra is képes, hogy meghaladja a januárban elérhetővé tett AlphaGo Master játékerejét is. (Ez a változat zsinórban 60 partit nyert meg azóta különböző topjátékosok ellen.)
A DeepMind alapító vezérigazgatója, Demis Hassabis szerint a továbbfejlesztett neurális hálózat és a hatékony keresőalgoritmus kombinációja tulajdonképpen magát fejlesztve állítja elő az AlphaGo egyre magasabb szintű változatait. A tanulási folyamat ebben az esetben már semmilyen módon nem támaszkodik az emberi megismerésre: a folyamat a nulláról indul, és a rendszer kizárólag a legerősebb gójátékostól tanul, vagyis saját magától.
A játék csak felkészülés a valódi kihívásokra
Hassabis úgy látja, hogy ha a mesterséges intelligencia ilyen jól teljesít egy annyira komplikált területen, mint amilyen a gó, akkor ideje, hogy ráküldjék az emberiség legnagyobb kihívást jelentő és meghatározó jelentőségű problémáira. Ilyen lehet például az összetett fehérjék tanulmányozása, ahol már a közeljövőben nagy áttöréseket várnak az MI-től az Alzheimer-kór, a Parkinson-kór vagy mondjuk a cisztás fibrózis gyógyításának kutatásában, akár több száz évvel is megelőzve a humán kutatók saját erejéből várható eredményeit.
A DeepMind kutatói jelenleg a StarCraft II valós idejű stratégiai játékra trenírozzák az AlphaGo rendszerét, ahol egy új, kép alapú interfész segítségével dolgozzák fel az alacsony felbontású RGB képadatokat. A szakemberek szerint a StarCraft működése jól modellezi a valós fizikai környezet folyamatait, legalábbis a tanulásnak ezen a szintjén. Az ágenseknek elvileg ugyanazokkal a tulajdonságokkal kell rendelkezniük, hogy sikereket érjenek el a játékban, mint amelyekre akkor is szükségük lesz, ha később a való világban kell betanítani őket a különféle feladatokra.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak