A rendszer érzékeli a mélységet, és lényegében kitalálja, hogyan nézhetnek ki a különböző objektumok más-más perspektívából.

A DeepMind kutatói egy új, általános célú keretrendszert mutattak be a képmodellezéssel és a gépi látással összefüggő feladatokhoz, amelynek működése az általa létrehozott videókban vagy képfunkciókban az egyes képkockák valószínűségi alapon történő előrejelzésére épül. A Transframer (szójáték!) nevű modell U-net és Transformer komponensek fehasználásával összesen nyolc különbőző feladatot lát el magas szinten, beleértve a képszegmentálást, a nézetek szintetizálását vagy a képkockák interpolációját.

A Transframer akár egyetlen kép elemzését követően is képes koherens, 30 másodperc hosszúságú videókat készíteni, így számtalan olyan alkalmazásban jelenhet majd meg, amelyben ilyen minimális képes vagy szöveges infomációból kell feltételes struktúrákat alkotnia. A bejelentés értelmben bevethető lesz például videomodellek előrejelzésére és generálására, vagy az egy adott nézetből ábrázolt objektumok más szemszögből való megjelenítésére.
 


A mesterséges intelligencia úgy generálja a perspektivikus videókat, hogy  úgynevezett kontextusképekkel jósolja meg a célképek környezetét: a betanítása során feldolgozott adatokból következtet rá, hogyan nézne ki valami egy másik nézőpontból szemlélve. A modell azért különösen lenyűgöző, mert úgy tűnik, képes mélységérzékelést és perspektívát alkalmazni, lényegében körüljárva a képeket. Ez már csak a videojátékok esetében is látványos előrelépést jelenthet, amennyiben a gépi tanulási technológián alapuló megoldásokkal váltja fel a hagyományos renderelést.

A Futurism beszámolója példának hozza fel, hogy máris felvetették a Transframer együttes felhasználását az OpenAI DALL-E képgeneráló algoritmusának kimeneteivel, ami előrevetíti a következő időszakban várhatóan megjelenő, magával ragadó kombinált MI-MI alkalmazásokat. Bár a most közzétett felvételek egyelőre nem a minőségükkel sokkolnak, hanem inkább csak a rendszer képességeit demózzák, a DeepMind szerint a Transframert különféle benchmarkok értékelik a jelenleg elérhető legmagasabb szintű technológiaként, amelyik explicit geometriai információ nélkül tud videókat generálni.

Cloud & big data

MI-vezérelt embermosógép készül Japánban

A pilótafülkére emlékeztető szerkezet gyors mosó-szárító programot és teljes felfrissülést ígér a felhasználóknak.
 
Ezt már akkor sokan állították, amikor a Watson vagy a DeepMind még legfeljebb érdekes játék volt, mert jó volt kvízben, sakkban vagy góban.
Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.