A DreamFusion, a Google következő generációs, mesterséges intelligenciára épülő alkalmazása új megközelítéssel teremt szöveges informácóból háromdimenziós képeket.

A szöveg-kép szintézisben az elmúlt évek jelentős áttöréseket hoztak, köszönheten a milliárdnyi kép-szöveg páron kiképzett diffúziós modelleknek. Ez a megközelítés azonban a háromdimenziós szintézishez úgy lenne adaptálható, ha rendelkezésre állnának a hasonló méretű, címkézett 3D-s adatokból álló adatkészletek és a zajtalanításukra szolgáló, hatékony architektúrák, amelyek közül jelenleg egyik sem létezik. A korlátokat ugyanakkor meg lehet kerülni egy előre betanított 2D-s szöveg-kép diffúziós modell segítségével, ha sikerül bevezetni egy valószínűségi sűrűség-desztilláción alapuló veszteséget, amely lehetővé teszi a modell használatát egy paraméteres képgenerátor optimalizálásának előfeltételeként – olvasható a Google tudósainak szeptember végi publikációjában.

A veszteséget az általuk alkalmazott eljárás során úgy optimalizálnak egy véletlenszerűen inicializált 3D-modellt (Neural Radiance Field, NeRF), hogy alacsony veszteséget érjenek el az ugyancsak véletlenszerű szögekből származó 2D-s renderelésekkel. A szövegek alapján készített 3D-s modellek így tetszőleges szögből megtekinthetők és tetszőleges módon újravilágíthatók, sőt össze is lehet illeszteni őket bármilyen 3D-s környezettel. A DreamFusion néven hivatkozott generátor megközelítése ezek szerint nem igényel háromdimenziós betanítási adatokat, és nem módosítja az előzetesen betanított képdiffúziós modelleket sem, bizonyítva azok hatékonyságát.

Ez is látványos, de a következő kiadás még jobb lehet

A DreamFusion működési koncepcióját bemutató tanulmány egyik szerzője is a 3D-s adatok elhagyását emeli ki Twitter-bejegyzésében, ahonnan el is irányít a projekt oldalára, hogy végignézzük a rendszer által generált kismillió képet. Érdekesség, hogy a megoldást egy másik poszt tanúsága szerint már be is vetették egy hamburgert fogyasztó kísértet figurájának 3D-s nyomtatására. Így az nem világos ugyan, hogy mikor lesz a dologból a nagyközönség számára is elérhető termék, de már látszik, hogy a rá épülő alkalmazásokból nem lesz hiány: a DreamFusion modellek egyelőre nem teljesen realisztikusak, de anélkül is elég lenyűgözően mutatnak.

A kutatók saját értékelése szerint a weboldalukon bemutatott, mesterséges intelligencia által generált formák koherensek, kiváló minőségű normálértékekkel, felületi geometriával és mélységgel, ráadásul megvilágíthatók a rájuk eső fényt minden irányban egyformán visszaverő felületként (Lamberti típusú reflektancia). Ez azt jelenti, hogy a DreamFusion alkotásai egyelőre nem annyira valósághűek, mint mondjuk az Open AI DALL-E 2 rendszerének fotorealisztikus képei, de minden szükséges elemet tartalmaznak. Rendben vannak a mélységek, megfelelőek az arányok, a technológia következő verziója pedig minden bizonnyal vizuális fejlesztéseket hoz majd az első iterációhoz képest.

Cloud & big data

Az Nvidia vezetője félreérti, mitől lesz visszautasíthatatlan egy ajánlat

Máshol csak a pénztártól való távozás után nem fogadják el a reklamációt, de Jensen Huang már azt is teljes tévedésnek tartja, ha valaki nem jön be nézelődni az MI-boltba.
 

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Hirdetés

HPE Morpheus VM Essentials: a virtualizáció arany középútja

Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.

A VMware felvásárlása és licencelési gyakorlatának átalakítása erősen rányomta a bélyegét az adatközponti infrastruktúrára: a korábban kiszámítható alap bizonytalanná és gyakran költségesebbé vált.

a melléklet támogatója az EURO ONE

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.