Az Open AI sikeresen betanított egy neurális hálózatot, hogy a videós előképzésnek (video pretraining, VPT) nevezett módszer segítségével úgy váljon képessé a Minecrafttel játszani, hogy azt legnagyobb részt az emberi játékosok tevékenységéről szóló óriási, felcímkézetlen adatkészlet feldolgozásával sajátította el. A rendszer tanítására használt, több tízezer órányi Youtube-os videónak ugyanis csak a töredékét, kétezer órányi anyagot készítették elő ilyen módon, annak alapján pedig egy másik MI címkézte fel a többi videósa anyag oroszlánrészét.
A VPT ennek alapján új távlatokat nyithat az interneten elérhető, praktikusan végtelen mennyiségű, de címkézetlen videós adattömeg hasznosításában egy egyszerű, félig felügyelt imitációs tanulási módszer formájában. A kutatók először egy kis adatkészletet gyűjtenek be az arra vállalkozóktól, ahol a Minecraft kapcsán nem csak a játékról készült felvételeket, de a játékosok műveleteit, billentyűleütéseit vagy egérmozgásait is rögzítik. Ezekkel aztán betanítanak egy olyan inverz dinamikai modellt (inverse dynamics model, IDM), amelyik megjósolja a videó egyes lépéseinél végrehajtott műveleteket.
Az IDM ennek során a múltbeli és jövőbeli információkat is felhasználhatja, hogy egyre pontosabb előrejelzéseket adjon, és az Open AI szerint ez egy sokkal egyszerűbb és sokkal kevesebb adatot igénylő eljárás, mint ha az úgynevezett "behavioral cloning" módszer során a programnak egy nagy csomó korábbi képkocka alapján kellene felismernie és reprodukálnia bizonyos emberi, szubkognitív képességeket. (A nyelvi modellek és a GPT-3 esetében az itt alkalmazott "akciócímkék" a mondatban soron következő szónak felelnének meg, de a Minecraft esetében nyilván teljesen másról van szó.)
Szintlépés az akciócímkékkel
A megfelelően kiképzett IDM segítségével az online videók óriási adathalmazát lehet automatikusan felcímkézni és alkalmazni a rendszerek tanítására. Az Open AI azt reméli, hogy a VPT kikövezi majd az utat az olyan önálló ágensekhez, amelyek az interneten található videók nézegetésévl tanulnak meg egyre összetettebb cselekvéseket. A VPT más módszerekhez képest is izgalmas lehetőséget kínálhat a nyelvi feldolgozáson tú egy sor másik területen: bár a mostani kísérletek a Minecraftre koncentráltak, a modell abban képes volt magától megtanulni egy, az emberek számára több mint 20 percet és sok ezer műveletet igénylő feladat végrehajtását, amihez hasonló eredményt korábban mág nem igazán sikerült elérni.
Mivel maga a Minecraft egy kifejezetten nyílt végű játék, és a natív emberi felhasználói felület (az egér és a billentyűzet) is általános dolognak számít, a kutatók szerint az ilyen programok nagy potenciállal rendelkeznek például a számítógép-használatban. A rendszerek finomhangolására persze a továbbiakban is szükség lesz valamilyen dedikált adathalmazokkal, de ezek csak arra szolgálnak, hogy egyre megbízhatóbbá tegyék a modellek működését. A lényeg, hogy az Open AI szoftvere már nem csak az egyes történések, hanem az azokhoz vezető emberi tevékenység megfigyelésével sajátítja el a különféle tevékenységeket.
Jön a Clico formabontó cloud meetupja, ahol eloszlatják a viharfelhőket
Merre mennek a bitek a felhőben, ledobja-e szemellenzőjét az IT-biztonságért felelős kolléga, ha felhőt lát, lesz-e két év múlva fejlesztés cloud nélkül? A Clico novemberben fesztelen szakmázásra hívja a szoftverfejlesztőket a müncheni sörkertek vibrálását idéző KEG sörművházba.
Miért ne becsüljük le a kisbetűs jelszavakat? 1. rész