Az Alphabeten belül nemrégiben egy nagy csapat alá terelt DeepMind szakértői érdekes, egyben rendkívül szórakoztató videót tettek közzé nemrégiben arról, milyen szinten sikerült mélytanulásos módszer segítségével két robotot megtanítani a kispályás foci egy leegyszerűsített verziójára.
Az alábbi bemutatóban több rövid, egyetlen gólig tartó összecsapást rögzítettek a kutatók. Az néhány másodperc után világossá válik, hogy ezek a gépek nem rendelkeznek a Boston Dynamics akrobatikus képességekkel menőző robotjainak kecsességével. Ennek ellenére a DeepMind kutatási projektjét sem érdemes lebecsülni, mivel a két csapat más megközelítéssel igyekszik előmozdítani a robotika lehetőségeit.
A Robotis OP3 elnevezésű emberszerű robotok egy 5x4 méteres, rámpákkal határolt pályán próbálják kicselezni a másikat. Utóbbit nem érdemes szó szerint venni, mert a szerkezeteknek a mozgás közbeni talpon maradás sem triviális feladat, tehát sarkazásokat és biciklicseleket ne várjunk el tőlük.
A robotok a bemutató során többször "lefagynak", és ebből az állapotból csak a térérzékelést segítő pöttyökkel ellátott labda megpöckölésével tudja kizökkenteni őket az emberi segítő. Az viszont a javukra írandó, hogy ugyan folyamatosan esnek-kelnek, ám villámgyorsan képesek újra álló pozícióba helyezni magukat. Sőt, néha egészen szakszerű védekezés nyomait is fel lehet fedezni a többnyire csak koordinálatlan kisgyerekek produkcióját idéző jelenetek között.
Nem elég csak a kapura fókuszálni
A 28 kutató együttes munkáját összefoglaló tanulmány (PDF) szerint a 20 különböző izülettel rendelkező humanoid gépeket irányító algoritmus tanítása során nem kizárólag a futball "végső értelmére", azaz a gólszerzésre kellett koncentrálni. A hatékony focihoz ugyanis sok különböző készség együttes elsajátítására van szükség.
A neurális hálózatnak ezért első körben az egyes készségeket (járás, felállás, rúgás, fordulás, helyezkedés stb.) külön-külön kellett elsajátítania. A mélytanulásos módszer lényege, hogy az algoitmus megkapja az elérendő célokat, amelyeket próbálkozások tömegén keresztül tanul meg minél hatékonyabban elérni.
A munka olyan érdekes elemeket is előhozott, mint a gólszerzés büntetése. A rendszer ugyanis hajlamos volt földön fekve is kizárólag a kapura koncentrálni, ami azt eredményezte, hogy a robotok gurulással igyekeztek célba juttatni a labdát. A felállás külön "jutalmazásával" viszont sikerült korrigálni a futballpályákhoz méltatlan viselkedést.
Mindez a tanulási folyamat virtuális környezetben zajlott. A megtanult készségek fizikai térbe történő átültetése pedig meglehetősen könnyen ment. A rendszer elemeinek azonosításával és a szabályok szükségszerű finomításával a szoftver ugyanúgy képes volt hozni a szintet a valóságos pályán is. Az egyik ilyen módosítás például külön díjazta azt, ha a szoftver nem terheli feleslegesen a robot térdízületét. Ennek hiányában ugyanis gyorsan leamortizálódtak a gépesített sporttársak.
A kutatást végző csapat szerint méréseikkel sikerült bizonyítani, hogy a megerősítésen alapuló tanítási folyamat gyorsabb és jobb eredményeket hoz, mint ha mindezt direkt programozással próbálták volna elérni.
CIO kutatás
Merre tart a vállalati IT és annak irányítója?
Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.
Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!
Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?