A szöveg-kép szintézisben az elmúlt évek jelentős áttöréseket hoztak, köszönheten a milliárdnyi kép-szöveg páron kiképzett diffúziós modelleknek. Ez a megközelítés azonban a háromdimenziós szintézishez úgy lenne adaptálható, ha rendelkezésre állnának a hasonló méretű, címkézett 3D-s adatokból álló adatkészletek és a zajtalanításukra szolgáló, hatékony architektúrák, amelyek közül jelenleg egyik sem létezik. A korlátokat ugyanakkor meg lehet kerülni egy előre betanított 2D-s szöveg-kép diffúziós modell segítségével, ha sikerül bevezetni egy valószínűségi sűrűség-desztilláción alapuló veszteséget, amely lehetővé teszi a modell használatát egy paraméteres képgenerátor optimalizálásának előfeltételeként – olvasható a Google tudósainak szeptember végi publikációjában.
A veszteséget az általuk alkalmazott eljárás során úgy optimalizálnak egy véletlenszerűen inicializált 3D-modellt (Neural Radiance Field, NeRF), hogy alacsony veszteséget érjenek el az ugyancsak véletlenszerű szögekből származó 2D-s renderelésekkel. A szövegek alapján készített 3D-s modellek így tetszőleges szögből megtekinthetők és tetszőleges módon újravilágíthatók, sőt össze is lehet illeszteni őket bármilyen 3D-s környezettel. A DreamFusion néven hivatkozott generátor megközelítése ezek szerint nem igényel háromdimenziós betanítási adatokat, és nem módosítja az előzetesen betanított képdiffúziós modelleket sem, bizonyítva azok hatékonyságát.
Ez is látványos, de a következő kiadás még jobb lehet
A DreamFusion működési koncepcióját bemutató tanulmány egyik szerzője is a 3D-s adatok elhagyását emeli ki Twitter-bejegyzésében, ahonnan el is irányít a projekt oldalára, hogy végignézzük a rendszer által generált kismillió képet. Érdekesség, hogy a megoldást egy másik poszt tanúsága szerint már be is vetették egy hamburgert fogyasztó kísértet figurájának 3D-s nyomtatására. Így az nem világos ugyan, hogy mikor lesz a dologból a nagyközönség számára is elérhető termék, de már látszik, hogy a rá épülő alkalmazásokból nem lesz hiány: a DreamFusion modellek egyelőre nem teljesen realisztikusak, de anélkül is elég lenyűgözően mutatnak.
A kutatók saját értékelése szerint a weboldalukon bemutatott, mesterséges intelligencia által generált formák koherensek, kiváló minőségű normálértékekkel, felületi geometriával és mélységgel, ráadásul megvilágíthatók a rájuk eső fényt minden irányban egyformán visszaverő felületként (Lamberti típusú reflektancia). Ez azt jelenti, hogy a DreamFusion alkotásai egyelőre nem annyira valósághűek, mint mondjuk az Open AI DALL-E 2 rendszerének fotorealisztikus képei, de minden szükséges elemet tartalmaznak. Rendben vannak a mélységek, megfelelőek az arányok, a technológia következő verziója pedig minden bizonnyal vizuális fejlesztéseket hoz majd az első iterációhoz képest.
Az ötlettől az értékteremtésig – az üzleti réteg szerepe az adattudományi működésben
Az adattudomány valódi értéke ott válik láthatóvá, ahol az előrejelzések döntésekké, a döntések pedig mérhető üzleti eredményekké alakulnak. Ehhez azonban tudatos üzleti beágyazásra, mérési keretrendszerekre és következetes visszacsatolásra is szükség van.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!
Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.
2026.03.10. UP Rendezvénytér
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak