A megerősítéses tanulással dolgozó mesterséges intelligencia az utóbbi években sorra állt elő világklasszis eredményekkel különböző játékokban, de egy friss tanulmány szerint az algoritmus ettől még nem lesz ideális partnerünk.

A korábbi években beszámoltunk például arról, amikor a deep Q-networknek nevezett algoritmus végigjátszotta a számítógépes őskorszak ikonikus darabjára, az Atari 2600-ra írt félszáz játékot, vagy amikor az ugyancsak a DeepMind által fejlesztett AlphaGo legyőzte az egyik legerősebb profi gójátékost. És ott van az AlphaZero, amely mindenféle megnyitáselmélet és adatbázis nélkül képes volt pár nap alatt úgy megtanulni sakkozni, hogy nem csak az emberi játékosokat, de a legerősebb gépi riválisokat is térdre kényszerítette. Két évvel ezelőtt pedig már olyan lazábban szabályozott környezetben is diadalmaskodott profik felett a mesterséges intelligencia (MI), mint amilyet a legendás valós idejű stratégia játék, a StarCraft II nyújt.

A jobbnál jobb eredmények elsősorban a megerősítéses tanulás (reinforced learning - RL) módszerében keresendők. Ennek alapvetése meglehetősen egyszerű: az algoritmus kezdésnek csak az adott játékban lehetséges akciók, lépések készletét, valamiféle visszacsatolási mechanizmust a környezettel kapcsolatban, illetve az elérendő célt kapja meg útravalónak. Innentől aztán már csak megfelelően sok játszmát kell lefuttatni ahhoz, hogy az MI tökélyre vigye az adott területet, és akár a világ legjobb emberi játékosait is kenterbe verje.

A módszer előnye, hogy mivel a gép semmiféle "prekoncepcióval" nem rendelkezik, gond nélkül megtesz az adott játékban eddig bevett konvenciónak számító lépésekkel ellentétes húzásokat is, amelyek egy része aztán briliáns manőverként írja át az adott játék történelmét.

Elég a játékból!

Az MIT egy tudóscsapata egy friss kutatással azt próbálta feltérképezni, hogy mi akadályozza meg ezeknek az agoritmusoknak a játékokon túli, szélesebb körű bevezetését. A való világ sok, egyelőre nehezen áthidalható szakadékot jelent az MI-nek. Például a környezetre jellemző nagyfokú bizonytalanság és részleges megfigyelhetőség, az adathiány, a kétértelmű/árnyalt célok, a döntéshozatal eltérő ütemezése stb. Nem utolsó sorban pedig kulcsfontosságú (lenne) az emberekkel való zavartalan együttműködés.

A kutatók ez utóbbira koncetrálva azt vizsgálták, hogy miként értékelik az emberek, ha különböző metódus szerint trenírozott algoritmusokkal kell közös sikert felmutatni. A tesztre egy ismert kártyajátékot, a Hanabit választották, ahol a játékosok úgy tudnak diadalmaskodni, ha egymásnak a lehető legjobb, de sosem egyértelmű utasításnak megfelelő tippet adják egy-egy szituációban.

Az MI-rendszerek hatékonyságát több külön területen is lehet értékelni. A self-play azt a felállását jelenti, ahol az algoritmus önmaga ellen játszik, a cross-play a más típusú MI-kkel való párosítást fedi le, míg a human-play értelemszerűen az emberekkel együtt játszott mérkőzésekre utal.

A tudósok két, teljesen eltérő hátterű algoritmust választottak ki a projektre. A szabályok alapján cselekvő SmartBot a self-play, a megerősítéses tanulással a semmiből építkező Other-Play pedig a másik két területen bizonyult a mezőny legjobbjának. Utóbbitól a kutatók nagyon sokat vártak, hiszen ez az algoritmus bármilyen másik, korábban nem "látott" MI-vel párosítva hozott konstans jó eredményeket, azaz elméletben egy emberi játékossal is könnyebben képes lehet egy hullámhosszra állni, mint a szigorúbb szabályokat követő rivális program.

Meglepő eredmény

A kísérlet során a jobbára tapasztalt hanabisokból álló résztvevők mindkét MI-t megkapták csapattársnak maguk mellé, de természetesen azt senki nem tudta, éppen melyik algoritmussal dolgozik össze. A szakemberek objektív és szubjektív mérőszámok alapján is értékelték a teljesítményt. Az objektív paraméterek között volt az elért pontszám, az elkövetett hibák gyakorisága, stb. A másik, képlékenyebb kalapba pedig azok a visszajelzések kerültek, amelyeket az emberi játékosok adtak azzal kapcsolatban, hogy az egyes partikban mennyire bíztak az MI-ben, illetve mennyire érezték konfortosnak az együttműködést.

Az objektív mérőszámok alapján a két különböző algoritmus szinte teljesen egy szintet hozott az emberekkel játszva, ám a szubjektív élmények tekintetében elbillent a mérleg. Mint kiderült, az emberek sokkal kedvezőbben nyilatkoztak az elvileg alkalmazkodni kevéssé képes SmartBot teljesítményéről, együttműködési képességeiről.

A meglepő eredmény értelmezése kapcsán egyelőre csak sejtésekbe tudott bocsátkozni a csapat. A teória szerint a megerősítéses tanulással dolgozó Other-Play erősen feltételezi a másik félről, hogy az (vagy ő) is teljesen önállóan alakítja ki az optimális stratégiáját egy kooperatív játékban. Ehhez képest egy tapasztalt Hanabi-játékos mind a parti előtt, mind a parti után kommunikál a partnerével, ami önmagában is más alapokra helyezi a játszma során előálló döntéshelyzeteket.

Mit lehet ebből tanulni?

A tanulmány megállapításai igazolni látszanak azt, hogy egy algoritmus self-play és cross-play területén mutatott teljesítménye nem feltétlenül áll párhuzamban azzal, hogy ugyanez a program miként tud kooperálni egy emberi szereplővel. Az MI szélesebb körű bevezetéséhez viszont alapvető fontosságú lenne meghatározni azokat az objektív mérőszámokat, amelyek korrelációban állnak az emberek szubjektív értékítéletével.

A választ azonban pusztán teszteléssel nem lehet megkapni, mivel emberek bevonásával képtelenség elérni az algoritmusok fejlődéséhez szükséges iterációs nagyságrendet. Így csak egy út marad: olyan tanítható objektív függvényeket kell találni, amelyek helyettesíthetik az emberi preferenciákat, vagy minimum erősen korrelálhatnak velük.

Cloud & big data

A bűnözőket is nagyon érdekli, hogy kinek van kiberbiztosítása

Egy éve elején közölt kutatás szerint ma már utánanéznek a dolognak, és a biztosított szervezetektől az átlagosnál jóval magasabb váltságdíjakat próbálnak bevasalni.
 
Hirdetés

Exkluzív szakmai nap a felhők fölött: KYOCERA Roadshow a MOL Toronyban

A jövő irodája már nem a jövő – hanem a jelen. A digitális transzformáció új korszakába lépünk, és ebben a KYOCERA nemcsak követi, hanem formálja is az irányt. Most itt a lehetőség, hogy első kézből ismerje meg a legújabb hardveres és szoftveres fejlesztéseket, amelyekkel a KYOCERA új szintre emeli a dokumentumkezelést és az üzleti hatékonyságot.

A mesterséges intelligencia új korszakába léptünk. A generatív MI nem csupán kísérleti technológia. Sok cég stratégiai eszköznek tekinti, amely segít a versenyképesség megőrzésében, javításában.

a melléklet támogatója a One Solutions

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.