Jelentősen kibővítette portfólióját az OpenAI azzal, hogy tegnap bemutatta a szövegből videókat gyártó új modelljét. A Sora elnevezésű generatív algoritmus a cég korábbi, szöveg- és képalkotásra kihegyezett fejlesztéseire épül, és a vállalat ígérete szerint a jelenleg elérhető legjobb eredményeket produkálja a területen.
A modellt egyelőre csak a hibák, anomáliák és potenciális biztonsági kockázatok után kutató úgynevezett red teamerek, illetve néhány kiválasztott vizuális művész és filmkészítő használhatja, de a bemutató oldal tanúsága szerint a minőségre valóban nem lehet panasz. (Legalábbis első ránézésre, mert ha kicsit megállítjuk a felvételeket, és elemezni kezdünk, sorra fedezhetők fel a gépi alkotásokra jellemző furcsaságok. Lásd lentebb.)
Az OpenAI a ChatGPT 2022 végi bejelentése óta a technológiai világ egyik leginkább emlegetett cége lett, ahol az eltelt bő egy év alatt futószalagon érkeztek a fejlesztések. A chatbotok esetében már a GPT-4 képességeit is használhatják az előfizetők, képalkotásban pedig jelenleg a harmadik generációnál tart a DALL-E modell. Ezekre építve tud meggyőző, legfeljebb egyperces felvételeket összerakni a Sora.
Impresszív, de...
Az OpenAI videógenerátora semmiképpen sem tekinthető az elsőnek a területen (a nagyobb szereplők közül a Meta és a Google is kísérletezik ilyesmivel), de feltételezve, hogy a bemutató kisfilmek tényleg az alattuk lévő utasításokra készültek, ez tűnik az eddigi legígéretesebb próbálkozásnak.
Mindez még akkor is így van, ha a videókat alaposan és többször megnézve szinte mindenhol tucatjával számolhatók össze a zavaró, következetlen vagy éppen teljesen szürreális elemek.
— Sam Altman (@sama) February 15, 2024
A fenti videót például maga Sam Altman, az OpenAI vezetője posztolta X-en, azt követően, hogy felajánlotta MrBeastnek, hogy készít neki valamit. A világ egyik legnépszerűbb youtubere egy parkban sakkozó majmot kért. Érdekes módon az algoritmus az összetettebb állatábrázolással különösebb gond nélkül megbirkózott, ám a sakktábla és a figurák esetében ordító hibákat vétett. Nem stimmel sem a tábla elrendezése (8x8 helyett csak 7x7 mezőből áll), gond van a figurák méretarányával, plusz miközben egy csomó más bábú nem szerepel a felvételen, világos királyból kettőt is tett a jelenetbe a gépi művész.
A bemutató oldalon szereplő, a kaliforniai aranyláz idejéből származó "történelmi" felvételekkel szintén hasonló a helyzet. Távolról elképesztő, mire képes már a tudomány, kikockázva azonban még bőven van min javítani. Van itt Patyomkin-falura hajazó, csak homlokzatból álló épület, kétlábú tehén, vagy éppen egyik pillanatról a másikra semmibe vesző rejtélyes alak is.
A Sora által generált vadnyugati filmben nem kívánt sci-fi elem a patak mellett semmibe vesző alak
A fentiekkel természetesen maga az OpenAI is tisztában van, és a Sora oldalán meg is említi, hogy a jelenlegi modellnek vannak gyengeségei. Többek között "nehezen tudja pontosan szimulálni egy összetett jelenet fizikáját, és nem érti az ok-okozati összefüggések konkrét eseteit. Például egy személy beleharaphat egy sütibe, de utána a sütin nem biztos, hogy van harapásnyom." Sőt, a modellnek még a jobb és bal oldalra vonatkozó térbeli utasítások értelmezésével is gyakran meggyűlik a baja.
A generatív algoritmus esetleges rosszindulatú felhasználását az OpenAI több módon is igyekszik megakadályozni, vagy legalább nehezíteni. Az elkészült alkotásoknál például egyértelműen jelölve van a metaadatokban, hogy azt a Sora állította elő. A bevitt utasításokat pedig már a DALL-E esetében is alkalmazott cenzúrázással szűrik, hogy eleve ne lehessen nem illendő vagy káros videók komponálására kérni az algoritmust.
Az OpenAI egyben vállalja, "világszerte bevonja a politikai döntéshozókat, oktatókat és művészeket, hogy megértse az aggodalmaikat, és meghatározza ennek az új technológiának a pozitív felhasználási eseteit".
Arról egyelőre nincs információ, hogy a Sora képességei mikor válnak széles körben elérhetővé.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak