Az AI News hét eleji riportjában számol be attól a szeptember végén közölt publikációról, amelyben az MIT tudósai leírják az általuk kidolgozott Heterogeneous Pretrained Transformers (HPT) elnevezésű technikát. Ezzel különféle forrásokból származó, nagy mennyiségű és heterogén adattömeget tudnak egységes rendszerbe foglalni, létrehozva egy olyan közös nyelvet, amelyet a generatív mesterségesintelligencia-modellek képesek hatékonyan feldolgozni. Ez lényeges eltérést jelent azzal a hagyományos megközelítéssel szemben, amikor célzottan az egyes robotok ellenőrzött környezetben végzett feladataihoz gyűjtik a képzéshez felhasznált adatokat.
Az általános modellek képzésének egyik akadálya ugyanakkor éppen a sokféleség. A lap ezzel kapcsolatban a kutatás vezetőjét idézi, aki szerint a nem megfelelő képzési adatokat szokás meghatározni a robotika kulcsfontosságú kihívásaként, pedig a probléma nem feltétlenül ebben, hanem az alkalmazási területek, módosulások és robothardverek rendkívüli sokféleségében rejlik. A kutatócsoport ezért olyan architektúrát próbált kifejleszteni, amelyben egyesítheti a különböző adattípusokat, így például a kamerafelvételeket, a nyelvi utasításokat vagy a mélységtérképeket (depth map).
Készül az univerzális robotagy
A HPT ennek megfelelően a fejlett nyelvi modellekhez hasonló módon tudja feldolgozni a vizuális és a proprioceptív (a saját részek térbeli és egymáshoz viszonyított helyzetére vonatkozó) bemeneteket is, amelyek kezelését a rendszer egyik kulcsfontosságú újításának nevezik. A cikkből kiderül, hogy a gyakorlati tesztek során figyelemreméltó eredményeketek ért el, szimulált és valós forgatókönyvekben is felülmúlva a hagyományos képzési eljárásokat. A különbség ráadásul akkor is megmutatkozik, ha a robotok jelentősen eltérő feladatokkal szembesültek ahhoz képest, amire a képzési adataik első szándékkal felkészítették volna őket.
Bár a kutatók maguk is elismerik, hogy munkájuk a kezdeti szakaszában jár, olyan áttörést várnak tőle a robotok irányításában, mint ami az említett nagy nyelvi modellek fejlődésében is tapasztalható. Az architektúra az AI News beszámolója alapján már most is az eddigieknél kifinomultabb mozgásokat tesz lehetővé, a kutatók következő feladata pedig az lesz, hogy a címkézetlen adatok feldolgozásában is feljavítsák a HPT képességeit. Végső céljuk egy olyan "univerzális robotagy" létrehozása, ami bármilyen robothoz letölthető és használható lenne további betanítás nélkül is.
Az ötlettől az értékteremtésig – az üzleti réteg szerepe az adattudományi működésben
Az adattudomány valódi értéke ott válik láthatóvá, ahol az előrejelzések döntésekké, a döntések pedig mérhető üzleti eredményekké alakulnak. Ehhez azonban tudatos üzleti beágyazásra, mérési keretrendszerekre és következetes visszacsatolásra is szükség van.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!
Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.
2026.03.10. UP Rendezvénytér
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak