A 2023 óta működő Odyssey olyan vizuális MI-platform fejlesztésén dolgozik, amelynek segítségével filmes tartalmakat és szerkeszthető 3D-s jeleneteket lehet létrehozni, lehetővé téve azt is, hogy a felhasználók interakcióba lépjenek a streamelt videókkal. A kaliforniai startup a héten tett elérhetővé újabb, korai demóként hivatkozott anyagokat, amelyben az Odyssey vonatkozó blogbejegyzése alapján 40 milliszekundumos válaszidővel generálná a képkockákat. A nézők egy 3D-s renderelt videojátékhoz hasonló módon, a megszokott vezérlőkön keresztül fedezhetik fel a videón belüli területeket, amivel az említett sebesség mellet lényegében azonnali hatásokat érhetnek el.
A bejegyzés szerint a modell "a világ aktuális állapota", a bejövő műveletek, illetve azok előzményei alapján próbálja megjósolni a jövőbeni állapotokat, fenntartva a térbeli konzisztenciát és legalább 5 percen keresztül biztosítva a koherens videófolyamokat. Ahogy a TechCrunch beszámolója kiemeli, a hasonló "világmodelleket" számos fejlesztői csoport hajszolja, nagy lehetőségeket látva bennük az interaktív média és a realisztikus szimulációk terén, bár a kreatív szakemberek minimum vegyes érzelmekkel viseltetnek a technológiával kapcsolatban a munkahelyek tömeges megszűnésétől tartva. Az Odyssey bizonyos fokig ezeket a fenntartásokat is igyekszik eloszlatni.
Saját meghatározásuk szerint az interaktív videó teljesen új szórakoztatási formák előtt nyitja meg az utat, amelyek a ma ismert videós tartalmak fejlődésének következő lépcsőjét képviselik majd. Ezt a valós időben működő világmodellek tennék lehetővé az igény szerint generálható és felfedezhető sztorikkal, ráadásul megszabadulva a hagyományos produkciók korlátaitól és költségeitől. Ahhoz persze nem kell sok fantázia, hogy megértsük, a kreatív iparban miért óvatosak az ilyen elképzelésekkel, amelyeket éppen az ő munkájukra építve próbálnak megvalósítani. Igaz, az Odyssey demói még eléggé elnagyoltak és instabilak, de a cég gyors fejlődést ígér ebben a tekintetben is.
A látványosság garantált, a működö világmodell nem
A vállalkozás eddig 27 millió dollárt gyűjtött össze a befektetőktől, igazgatóságában pedig ott ül a Pixar egyik alapítója és a Walt Disney Animation Studios korábbi elnöke is. A technológia pillanatnyilag 30 képkocka/másodperc sebességgel képes videókat streamelni Nvidia H100 GPU-kból álló klasztereken keresztül, ami saját közlése szerint felhasználói óránként 1-2 dolláros költséggel jár. A nagy dobás az lenne, hogy az Odyssey más megközelítést alkalmaz, mint a világmodelleket fejlesztő más MI-laborok: egy 360 fokos, hátizsákra szerelhető kamerarendszert terveztek a valós tájak rögzítésére, ami alapul szolgálna a publikus adatokon betanított, egyre jobb minőségű modellekhez.
Azt maga az Odyssey is világossá teszi közleményében, hogy nem egy megoldott kutatási problémáról beszél, és nyilván csak később derül majd ki, hogy miben áll majd a minőség folyamatos javulása. Van, aki szerint ez a megközelítés eleve kudarcra van ítélve, mert alkalmas lehet ugyan a látványos videók generálására, de a "világszimuláció" végtelen számú, kiszámíthatatlan lehetősége már absztrakciós szinteket is feltételezne az irreleváns részletek válogatás nélküli elemezgetése helyett. Mindenesetre érdekes, hogy az új megoldások a rögzített képkockákból álló halmazok egyidejű létrehozása helyett már képkockánként reagálnak a történésekre, nyitottá téve a videók alakulását.
a kép forrása: odyssey.world
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak