Az OpenAI néhány nappal ezelőtt tette széles körben is elérhetővé a februárban bemutatott, szöveges utasításokból rövid filmeket gyártó Sora modelljét, ráadásul az eredeti modell egy továbbfejlesztett változatának formájában, ami a társaság bejelentése alapján sokkal gyorsabban dolgozik az elődjénél. A ChatGPT Plus és a Pro csomagokra előfizető ügyfelek így nekiállhattak felfedezni az alkalmazást, leszámítva mások mellett az Európai Gazdasági Térség országaiban élőket, akiknek csak később ígérnek hozzáférést.
A Sorát az elmúlt időszakban meglehetős felhajtás övezte, azonban ahogy az MI-iparágban lassan megszokhatjuk, látatlanban sokkal kedvezőbb képet festettek róla a valóságos képességeinél. Igaz, hogy beszámolókban elismerik a modell által generált videók esetenként fotorealisztikus megjelenését, de a generatív technológiára jellemző hibákat a Sora is üzembiztosan szállítja. Felfedezték többek között, alapvető szavakat sem képes kibetűzni, egészen nevetséges dolgokat produkál, ha tornagyakorlatok megjelenítésére utasítják.
Például ilyesmit:
As cool as the new Sora is, gymnastics is still very much the Turing test for AI video.
— Deedy (@deedydas) December 10, 2024
1/4 pic.twitter.com/X78dNzusNU
Vagy ilyesmit:
The rumors are true - SORA, OpenAI's AI video generator, is launching for the public today...
— Marques Brownlee (@MKBHD) December 9, 2024
I've been using it for about a week now, and have reviewed it: https://t.co/jII49vkuHN
THE BELOW VIDEO IS 100% AI GENERATED
I've learned a lot testing this, here are some new… pic.twitter.com/uA1EhRuK7B
A felhasználók természetesen értetlenkednek, hogy az MI a látványos képességei ellenére is simán el tud hasalni az (emberi fogalmak szerint) legegyszerűbb dolgokon. Másokat ez kevésbé zavar, és csak a technológia lenyűgöző aspektusairól hajlandók értekezni, de ettől még nyilvánvaló, hogy a Sora nem annyira kifinomult, mint ahogy azt a nyilvános megjelenését megelőző kampányban sulykolták. Váratlannak persze nem nevezhető, hiszen a techvállalatok a minden bizonnyal alaposan megkonstruált imázsvideókban is rendszeresen aknákra szaladnak.
Mivel a szöveges parancsokból képeket vagy videókat gyártó modellek is tulajdonképpen a statisztikai alapú imitációról szólnak, gyakran hibáznak váratlanul és nehezen magyarázható módon. Működésükből következően minden utasításra adhatnak valamilyen kimenetet a statisztikai eloszlások vizsgálatával, de teljesen közömbösek azok igazságát illetően, az ebből fakadó korlátok és megoldatlan problémák viszont nem igazán hangsúlyosak a fejlesztők narratívájában, ami már az emberi képességeket felülmúló MI küszöbön álló megjelenéséről szól.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak