A DreamFusion, a Google következő generációs, mesterséges intelligenciára épülő alkalmazása új megközelítéssel teremt szöveges informácóból háromdimenziós képeket.

A szöveg-kép szintézisben az elmúlt évek jelentős áttöréseket hoztak, köszönheten a milliárdnyi kép-szöveg páron kiképzett diffúziós modelleknek. Ez a megközelítés azonban a háromdimenziós szintézishez úgy lenne adaptálható, ha rendelkezésre állnának a hasonló méretű, címkézett 3D-s adatokból álló adatkészletek és a zajtalanításukra szolgáló, hatékony architektúrák, amelyek közül jelenleg egyik sem létezik. A korlátokat ugyanakkor meg lehet kerülni egy előre betanított 2D-s szöveg-kép diffúziós modell segítségével, ha sikerül bevezetni egy valószínűségi sűrűség-desztilláción alapuló veszteséget, amely lehetővé teszi a modell használatát egy paraméteres képgenerátor optimalizálásának előfeltételeként – olvasható a Google tudósainak szeptember végi publikációjában.

A veszteséget az általuk alkalmazott eljárás során úgy optimalizálnak egy véletlenszerűen inicializált 3D-modellt (Neural Radiance Field, NeRF), hogy alacsony veszteséget érjenek el az ugyancsak véletlenszerű szögekből származó 2D-s renderelésekkel. A szövegek alapján készített 3D-s modellek így tetszőleges szögből megtekinthetők és tetszőleges módon újravilágíthatók, sőt össze is lehet illeszteni őket bármilyen 3D-s környezettel. A DreamFusion néven hivatkozott generátor megközelítése ezek szerint nem igényel háromdimenziós betanítási adatokat, és nem módosítja az előzetesen betanított képdiffúziós modelleket sem, bizonyítva azok hatékonyságát.

Ez is látványos, de a következő kiadás még jobb lehet

A DreamFusion működési koncepcióját bemutató tanulmány egyik szerzője is a 3D-s adatok elhagyását emeli ki Twitter-bejegyzésében, ahonnan el is irányít a projekt oldalára, hogy végignézzük a rendszer által generált kismillió képet. Érdekesség, hogy a megoldást egy másik poszt tanúsága szerint már be is vetették egy hamburgert fogyasztó kísértet figurájának 3D-s nyomtatására. Így az nem világos ugyan, hogy mikor lesz a dologból a nagyközönség számára is elérhető termék, de már látszik, hogy a rá épülő alkalmazásokból nem lesz hiány: a DreamFusion modellek egyelőre nem teljesen realisztikusak, de anélkül is elég lenyűgözően mutatnak.

A kutatók saját értékelése szerint a weboldalukon bemutatott, mesterséges intelligencia által generált formák koherensek, kiváló minőségű normálértékekkel, felületi geometriával és mélységgel, ráadásul megvilágíthatók a rájuk eső fényt minden irányban egyformán visszaverő felületként (Lamberti típusú reflektancia). Ez azt jelenti, hogy a DreamFusion alkotásai egyelőre nem annyira valósághűek, mint mondjuk az Open AI DALL-E 2 rendszerének fotorealisztikus képei, de minden szükséges elemet tartalmaznak. Rendben vannak a mélységek, megfelelőek az arányok, a technológia következő verziója pedig minden bizonnyal vizuális fejlesztéseket hoz majd az első iterációhoz képest.

Cloud & big data

MI-vezérelt embermosógép készül Japánban

A pilótafülkére emlékeztető szerkezet gyors mosó-szárító programot és teljes felfrissülést ígér a felhasználóknak.
 
Ezt már akkor sokan állították, amikor a Watson vagy a DeepMind még legfeljebb érdekes játék volt, mert jó volt kvízben, sakkban vagy góban.
Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.