Az AI News hét eleji riportjában számol be attól a szeptember végén közölt publikációról, amelyben az MIT tudósai leírják az általuk kidolgozott Heterogeneous Pretrained Transformers (HPT) elnevezésű technikát. Ezzel különféle forrásokból származó, nagy mennyiségű és heterogén adattömeget tudnak egységes rendszerbe foglalni, létrehozva egy olyan közös nyelvet, amelyet a generatív mesterségesintelligencia-modellek képesek hatékonyan feldolgozni. Ez lényeges eltérést jelent azzal a hagyományos megközelítéssel szemben, amikor célzottan az egyes robotok ellenőrzött környezetben végzett feladataihoz gyűjtik a képzéshez felhasznált adatokat.
Az általános modellek képzésének egyik akadálya ugyanakkor éppen a sokféleség. A lap ezzel kapcsolatban a kutatás vezetőjét idézi, aki szerint a nem megfelelő képzési adatokat szokás meghatározni a robotika kulcsfontosságú kihívásaként, pedig a probléma nem feltétlenül ebben, hanem az alkalmazási területek, módosulások és robothardverek rendkívüli sokféleségében rejlik. A kutatócsoport ezért olyan architektúrát próbált kifejleszteni, amelyben egyesítheti a különböző adattípusokat, így például a kamerafelvételeket, a nyelvi utasításokat vagy a mélységtérképeket (depth map).
Készül az univerzális robotagy
A HPT ennek megfelelően a fejlett nyelvi modellekhez hasonló módon tudja feldolgozni a vizuális és a proprioceptív (a saját részek térbeli és egymáshoz viszonyított helyzetére vonatkozó) bemeneteket is, amelyek kezelését a rendszer egyik kulcsfontosságú újításának nevezik. A cikkből kiderül, hogy a gyakorlati tesztek során figyelemreméltó eredményeketek ért el, szimulált és valós forgatókönyvekben is felülmúlva a hagyományos képzési eljárásokat. A különbség ráadásul akkor is megmutatkozik, ha a robotok jelentősen eltérő feladatokkal szembesültek ahhoz képest, amire a képzési adataik első szándékkal felkészítették volna őket.
Bár a kutatók maguk is elismerik, hogy munkájuk a kezdeti szakaszában jár, olyan áttörést várnak tőle a robotok irányításában, mint ami az említett nagy nyelvi modellek fejlődésében is tapasztalható. Az architektúra az AI News beszámolója alapján már most is az eddigieknél kifinomultabb mozgásokat tesz lehetővé, a kutatók következő feladata pedig az lesz, hogy a címkézetlen adatok feldolgozásában is feljavítsák a HPT képességeit. Végső céljuk egy olyan "univerzális robotagy" létrehozása, ami bármilyen robothoz letölthető és használható lenne további betanítás nélkül is.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak