A DreamFusion, a Google következő generációs, mesterséges intelligenciára épülő alkalmazása új megközelítéssel teremt szöveges informácóból háromdimenziós képeket.
Hirdetés
 

A szöveg-kép szintézisben az elmúlt évek jelentős áttöréseket hoztak, köszönheten a milliárdnyi kép-szöveg páron kiképzett diffúziós modelleknek. Ez a megközelítés azonban a háromdimenziós szintézishez úgy lenne adaptálható, ha rendelkezésre állnának a hasonló méretű, címkézett 3D-s adatokból álló adatkészletek és a zajtalanításukra szolgáló, hatékony architektúrák, amelyek közül jelenleg egyik sem létezik. A korlátokat ugyanakkor meg lehet kerülni egy előre betanított 2D-s szöveg-kép diffúziós modell segítségével, ha sikerül bevezetni egy valószínűségi sűrűség-desztilláción alapuló veszteséget, amely lehetővé teszi a modell használatát egy paraméteres képgenerátor optimalizálásának előfeltételeként – olvasható a Google tudósainak szeptember végi publikációjában.

A veszteséget az általuk alkalmazott eljárás során úgy optimalizálnak egy véletlenszerűen inicializált 3D-modellt (Neural Radiance Field, NeRF), hogy alacsony veszteséget érjenek el az ugyancsak véletlenszerű szögekből származó 2D-s renderelésekkel. A szövegek alapján készített 3D-s modellek így tetszőleges szögből megtekinthetők és tetszőleges módon újravilágíthatók, sőt össze is lehet illeszteni őket bármilyen 3D-s környezettel. A DreamFusion néven hivatkozott generátor megközelítése ezek szerint nem igényel háromdimenziós betanítási adatokat, és nem módosítja az előzetesen betanított képdiffúziós modelleket sem, bizonyítva azok hatékonyságát.

Ez is látványos, de a következő kiadás még jobb lehet

A DreamFusion működési koncepcióját bemutató tanulmány egyik szerzője is a 3D-s adatok elhagyását emeli ki Twitter-bejegyzésében, ahonnan el is irányít a projekt oldalára, hogy végignézzük a rendszer által generált kismillió képet. Érdekesség, hogy a megoldást egy másik poszt tanúsága szerint már be is vetették egy hamburgert fogyasztó kísértet figurájának 3D-s nyomtatására. Így az nem világos ugyan, hogy mikor lesz a dologból a nagyközönség számára is elérhető termék, de már látszik, hogy a rá épülő alkalmazásokból nem lesz hiány: a DreamFusion modellek egyelőre nem teljesen realisztikusak, de anélkül is elég lenyűgözően mutatnak.

A kutatók saját értékelése szerint a weboldalukon bemutatott, mesterséges intelligencia által generált formák koherensek, kiváló minőségű normálértékekkel, felületi geometriával és mélységgel, ráadásul megvilágíthatók a rájuk eső fényt minden irányban egyformán visszaverő felületként (Lamberti típusú reflektancia). Ez azt jelenti, hogy a DreamFusion alkotásai egyelőre nem annyira valósághűek, mint mondjuk az Open AI DALL-E 2 rendszerének fotorealisztikus képei, de minden szükséges elemet tartalmaznak. Rendben vannak a mélységek, megfelelőek az arányok, a technológia következő verziója pedig minden bizonnyal vizuális fejlesztéseket hoz majd az első iterációhoz képest.

Cloud & big data

Egy év alatt ötödével hízott a félvezetőpiac

A szegmenst természetesen az MI-hájp legnagyobb haszonélvezője, az Nvidia dominálja, de azért a többiek se jártak rosszul.
 
Hirdetés

Az ötlettől az értékteremtésig – az üzleti réteg szerepe az adattudományi működésben

Az adattudomány valódi értéke ott válik láthatóvá, ahol az előrejelzések döntésekké, a döntések pedig mérhető üzleti eredményekké alakulnak. Ehhez azonban tudatos üzleti beágyazásra, mérési keretrendszerekre és következetes visszacsatolásra is szükség van.

Az adatvezérelt működés sikere ritkán múlik azon, milyen technológiát vezet be egy vállalat. Sokkal inkább az a kulcs, hogyan illeszti az adattárházat, a BI-t és az MI-megoldásokat a meglévő rendszerekhez és döntési folyamatokhoz.

a melléklet támogatója a One Solutions

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!

Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.

2026.03.10. UP Rendezvénytér

RÉSZLETEK »

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.