Az OpenAI szerint ez már a "világszimulátor" előszobája, Yann LeCun szerint azonban olyan megközelítésről van szó, amelyik sosem fog túllépni a látványos kis videókon.

Az OpenAI február közepén mutatta be a szövegből videókat létrehozó Sora MI-modellt, ami a filmek mellett hatalmas felhajtást is generált, és sokan egyből kikiáltották egy új korszak kezdetét. A Sora alkotásai valóban látványosak, bár ahogy időközben egyre több klipet osztottak meg, nyilvánvalóvá vált, hogy azok üzembiztosan hozzák a többi videó- és képgeneráló MI furcsaságait is. Ez azt jelenti, hogy a professzionális felhasználást valószínűleg most sem fogja letarolni a mesterséges intelligencia. Ahogy az egyik szakember magyarázza a Twitter-X-en, az animáció iteratív folyamat, különösen, ha megrendelésre végzik, a Sora egyik kimenetét elemezve pedig szemléltette is az emberek által könnyen kezelhető, de az MI szempontjából kritikus hibákat.

A technológia fejlődése persze így is hihetetlenül látványos, ezért a kritikák nem feltétlenül az MI adott pillanatban mutatott teljesítményéről szólva érdekesek. A Sora esetében is az tűnik a leginkább véleményes dolognak, hogy az OpenAI szerint az már képes megérteni a minket körülvevő háromdimenziós világ fontos aspektusait, és a videógeneráló modellek skálázásával a fizikai világ általános célú szimulátorainak felépítését ígéri. Ezekkel az állításokkal szállt vitába mások mellett Yann LeCun, a Meta vezető mesterségesintelligencia-tudósa és a gépi tanulás egyik legmagasabban jegyzett úttörője is, aki szerint "a világ gyakorlati jelentőségű modellezése pixelgenerálással" nem csak gazdaságtalan, de alapvetően kudarcra ítélt megközelítés.

Az intelligencia nem így működik?

Mint írja, egy felismerésre vagy tervezésre tanított világmodell esetében szörnyű ötletnek tartja a pixelszintű előrejelzést. A szövegek esetében azért működik a módszer, mert ott diszkrét halmazokról van szó, véges számú szimbólummal, és ilyen feltételek mellett még kezelhető az előrejelzések bizonytalansága. A többdimenziós, folyamatos szenzoros bemenetek előrejelzési bizonytalanságának kezelése viszont megoldhatatlan ugyanazokkal az eszközökkel, amiből az következik, hogy az érzékszervi bemenetek generatív modelljei sem lehetnek sikeresek. Itt a mögöttes architektúrát és módszert is teljesen lényegtelennek tartja: szerinte a generatív MI-vel klassz videókat lehet készíteni, de alkalmatlan a világ működésének felfedezésére.

Tulajdonképpen arról van szó, hogy a szóban forgó modellek válogatás nélkül próbálják kikövetkeztetni a nem releváns részleteket, ami egy "világszimuláció" esetében lehetetlen és értelmetlen próbálkozás. Az egyik kommentárban ezt ahhoz hasonlítják, mintha egy focilabda pályáját próbálnák kiszámítani, de ehhez a labda tömege és sebessége mellett (vagy helyett) a gyártása során felhasznált anyagokat kezdenénk elemezgetni. LeCun korábban a nagy nyelvi modellket (LLM-eket) is azzal jellemezte, hogy létrával próbálnak meg feljutni a Holdra, eközben pedig saját V-JEPA modelljén dolgozik a Metánál. Ez egyébként majdnem a Sorával egy időben mutkozott be, és más irányt jelöl ki az OpenAI-hoz és annak utánzóihoz képest.

Piaci hírek

MI-vezérelt embermosógép készül Japánban

A pilótafülkére emlékeztető szerkezet gyors mosó-szárító programot és teljes felfrissülést ígér a felhasználóknak.
 
Ezt már akkor sokan állították, amikor a Watson vagy a DeepMind még legfeljebb érdekes játék volt, mert jó volt kvízben, sakkban vagy góban.
Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.