Az OpenAI február közepén mutatta be a szövegből videókat létrehozó Sora MI-modellt, ami a filmek mellett hatalmas felhajtást is generált, és sokan egyből kikiáltották egy új korszak kezdetét. A Sora alkotásai valóban látványosak, bár ahogy időközben egyre több klipet osztottak meg, nyilvánvalóvá vált, hogy azok üzembiztosan hozzák a többi videó- és képgeneráló MI furcsaságait is. Ez azt jelenti, hogy a professzionális felhasználást valószínűleg most sem fogja letarolni a mesterséges intelligencia. Ahogy az egyik szakember magyarázza a Twitter-X-en, az animáció iteratív folyamat, különösen, ha megrendelésre végzik, a Sora egyik kimenetét elemezve pedig szemléltette is az emberek által könnyen kezelhető, de az MI szempontjából kritikus hibákat.
A technológia fejlődése persze így is hihetetlenül látványos, ezért a kritikák nem feltétlenül az MI adott pillanatban mutatott teljesítményéről szólva érdekesek. A Sora esetében is az tűnik a leginkább véleményes dolognak, hogy az OpenAI szerint az már képes megérteni a minket körülvevő háromdimenziós világ fontos aspektusait, és a videógeneráló modellek skálázásával a fizikai világ általános célú szimulátorainak felépítését ígéri. Ezekkel az állításokkal szállt vitába mások mellett Yann LeCun, a Meta vezető mesterségesintelligencia-tudósa és a gépi tanulás egyik legmagasabban jegyzett úttörője is, aki szerint "a világ gyakorlati jelentőségű modellezése pixelgenerálással" nem csak gazdaságtalan, de alapvetően kudarcra ítélt megközelítés.
Az intelligencia nem így működik?
Mint írja, egy felismerésre vagy tervezésre tanított világmodell esetében szörnyű ötletnek tartja a pixelszintű előrejelzést. A szövegek esetében azért működik a módszer, mert ott diszkrét halmazokról van szó, véges számú szimbólummal, és ilyen feltételek mellett még kezelhető az előrejelzések bizonytalansága. A többdimenziós, folyamatos szenzoros bemenetek előrejelzési bizonytalanságának kezelése viszont megoldhatatlan ugyanazokkal az eszközökkel, amiből az következik, hogy az érzékszervi bemenetek generatív modelljei sem lehetnek sikeresek. Itt a mögöttes architektúrát és módszert is teljesen lényegtelennek tartja: szerinte a generatív MI-vel klassz videókat lehet készíteni, de alkalmatlan a világ működésének felfedezésére.
Tulajdonképpen arról van szó, hogy a szóban forgó modellek válogatás nélkül próbálják kikövetkeztetni a nem releváns részleteket, ami egy "világszimuláció" esetében lehetetlen és értelmetlen próbálkozás. Az egyik kommentárban ezt ahhoz hasonlítják, mintha egy focilabda pályáját próbálnák kiszámítani, de ehhez a labda tömege és sebessége mellett (vagy helyett) a gyártása során felhasznált anyagokat kezdenénk elemezgetni. LeCun korábban a nagy nyelvi modellket (LLM-eket) is azzal jellemezte, hogy létrával próbálnak meg feljutni a Holdra, eközben pedig saját V-JEPA modelljén dolgozik a Metánál. Ez egyébként majdnem a Sorával egy időben mutkozott be, és más irányt jelöl ki az OpenAI-hoz és annak utánzóihoz képest.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak