Az Nvidia vállalati blogján közzétett bejegyzés szerint a társaság olyan mesterséges intelligenciát fejleszt, amely egy kétdimenziós felvétel alapján képes megalkotni egy kiválasztott tárgy részletes, háromdimenziós modelljét. A DIB-R (differentiable interpolation-based renderer) nevű rendszer a bejelentés alapján a legelső olyan MI, amely sikeresen megoldotta ezt a feladatot. Ráadásul átlagosan kevesebb mint egy tizedmásodperc alatt elkészül a 3D-s modellekkel, ami az Nvidia szerint alkalmassá teszi az autonóm robotok területén való felhasználásra.
A tizedmásodperces teljesítményt természetesen minden esetben megelőzi a rendszer betanítása, ami nagyjából két napot vesz igénybe az objektumok egyes típusainak esetében. Ha például madarakat ábrázoló fotókat dolgoznak fel a rendszerben, akkor a későbbiekben a mesterséges intelligencia már villámgyorsan lemodellezi az olyan fajta madarakat is, amelyekkel korábban nem találkozott, jó közelítéssel megbecsülve azok alakját, színét vagy felületét.
Emberek megfigyelésére is kiválóan alkalmas
Ez a képesség mások mellett az önműködő robotok könnyebb tájékozódásában lehet hasznos a háromdimenziós közegben, de olyan alkalmazások előtt is megnyitja az utat, mint amilyen mondjuk a fényképek alapján rekonstruált virtuális környezetek felfedezése lenne az emberi felhasználók részéről, vagy akár egy régi fényképfelvétel 3D-s leképzése és megjelenítése. Ilyesmire persze már eddig is volt lehetőség, amennyiben rendelkezésre álltak a tárgyakról különböző nézetből készített képek, de érdemes újra kiemelni, hogy az Nvidia technológiája mindezt egyetlen kétdimenziós fotó alapján biztosítaná.
Az MI renderelt modellje egy madár fotója alapján (forrás: blogs.nvidia.com)
A modellt ezen a héten debütál a vancouveri NeurIPS konferencián, ahol részletesen bemutatják az új grafikai eszköz működését, illetve lehetséges alkalmazásait a robotikában, az önvezető járművek fejlesztésében vagy akár a biztonsági kamerarendszerek hatékonyságának javításában. Ez utóbbi a már megszokott módon rávilágít a friss technológia egy ijesztő vetületére is, hiszen így az arcfelismerő vagy más azonosító megoldások terjedésével elvileg még pontosabban lehet majd belőni, hogy ki sétált el a kamerák előtt.
A közleményben Jun Gao, az Nvidia egyik kutatója magyarázza el, hogy első ízben lesz lehetőségünk gyakorlatilag bármilyen 2D-s felvételből kinyerni a felvétel tárgyának releváns 3D-s tulajdonságait. A PyTorch gépi tanuló keretrendszerre épülő DIB-R egyébként a Kaolin, az Nvidia 3D-s mélytanuló PyTorch könyvtának része, amelynek célja, hogy felgyorsítsa a mélytanuló rendszerek kutatását. Az Nvidia kutatócsapata ma már több mint 200 szakemberből áll világszerte, és oylan területekre fókuszál, mint az MI, a gépi látás, az autonóm járművek, a robotika vagy a grafikus megjelenítés.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak