A rendszer érzékeli a mélységet, és lényegében kitalálja, hogyan nézhetnek ki a különböző objektumok más-más perspektívából.
Hirdetés
 

A DeepMind kutatói egy új, általános célú keretrendszert mutattak be a képmodellezéssel és a gépi látással összefüggő feladatokhoz, amelynek működése az általa létrehozott videókban vagy képfunkciókban az egyes képkockák valószínűségi alapon történő előrejelzésére épül. A Transframer (szójáték!) nevű modell U-net és Transformer komponensek fehasználásával összesen nyolc különbőző feladatot lát el magas szinten, beleértve a képszegmentálást, a nézetek szintetizálását vagy a képkockák interpolációját.

A Transframer akár egyetlen kép elemzését követően is képes koherens, 30 másodperc hosszúságú videókat készíteni, így számtalan olyan alkalmazásban jelenhet majd meg, amelyben ilyen minimális képes vagy szöveges infomációból kell feltételes struktúrákat alkotnia. A bejelentés értelmben bevethető lesz például videomodellek előrejelzésére és generálására, vagy az egy adott nézetből ábrázolt objektumok más szemszögből való megjelenítésére.
 


A mesterséges intelligencia úgy generálja a perspektivikus videókat, hogy  úgynevezett kontextusképekkel jósolja meg a célképek környezetét: a betanítása során feldolgozott adatokból következtet rá, hogyan nézne ki valami egy másik nézőpontból szemlélve. A modell azért különösen lenyűgöző, mert úgy tűnik, képes mélységérzékelést és perspektívát alkalmazni, lényegében körüljárva a képeket. Ez már csak a videojátékok esetében is látványos előrelépést jelenthet, amennyiben a gépi tanulási technológián alapuló megoldásokkal váltja fel a hagyományos renderelést.

A Futurism beszámolója példának hozza fel, hogy máris felvetették a Transframer együttes felhasználását az OpenAI DALL-E képgeneráló algoritmusának kimeneteivel, ami előrevetíti a következő időszakban várhatóan megjelenő, magával ragadó kombinált MI-MI alkalmazásokat. Bár a most közzétett felvételek egyelőre nem a minőségükkel sokkolnak, hanem inkább csak a rendszer képességeit demózzák, a DeepMind szerint a Transframert különféle benchmarkok értékelik a jelenleg elérhető legmagasabb szintű technológiaként, amelyik explicit geometriai információ nélkül tud videókat generálni.

Cloud & big data

Saját MI-t visznek a Nemzetközi Űrállomásra az oroszok

A Sberbank által fejlesztett nagy nyelvi modell a tervek szerint sokat segíthet a kozmonautáknak, például a műholdképek automatikus feldolgozásával.
 
A láthatatlan kitettségek feltérképezése nem a jövő biztonsági kérdése, hanem az első lépés, amit ma kell megtenni.

a melléklet támogatója a One Solutions

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.