Az OpenAI még 2021 elején mutatta be az a képgeneráló modelljét, amelyet a szürrealista Salvador Dalíról és a Pixar robotkarakteréről neveztek el. A kettő egyesítéséből született DALL-E mindkét névadóhoz hű, hiszen mesterséges intelligenciaként (MI) művészi alkotásokat állít elő. A kutatólaboratórium munkatársai alig egy évet követően most álltak elő a rendszer második generációjával, amely természetesen több szempontból is felülmúlja a korábbi modell képességeit.
DALL-E 2 elődjéhez hasonlóan szöveges beviteli adatok alapján próbál az utasításoknak megfelelő képet alkotni. Megadható, hogy kik, mik szerepeljenek a kreált jeleneten, illetve az is, hogy milyen stílusjegyeket hordozzon az alkotás. Az új változat sokoldalúbb és nagyobb felbontású képeket tud készíteni.
Az új verzióval lehetőség van arra is, hogy egy meglévő képen végeztessünk el kisebb, vagy éppen nagyobb változtatásokat a modellel. A program a meglévő keretek között, azaz a fényhatások, árnyékolás figyelembevételével igyekszik odavarázsolni a kért elemeket, természetesen stílusba illeszkedően.
Az algoritmust egy 3,5 milliárd paraméteres modell működteti, amelyet számtalan, az internetről származó képpáron és feliraton képeztek ki. A szoftver így megtanulja a kapcsolatot a vizuális fogalmak és a leíró szöveg között. A digitálisan létrehozott képek felbontásának növelésére egy külön 1,5 milliárd paraméteres modellt használ. A DALL-E 2 a diffúziónak nevezett folyamat segítségével generálja a képeket, ahol véletlenszerű pontokból álló mintázatokat adnak hozzá és változtatnak, miközben megpróbálják hozzáigazítani a képet egy adott stílushoz.
Bár az újabb modell sok szempontból meghaladja elődje kvalitásait, de a példák alapján még mindig küzd a bonyolultabb jelenetek finomabb részleteinek előállításával.
Kísérleti fázisban
A DALL-E 2 egyelőre kutatási fázisban van, ezért az OpenAI egyenlőre nem teszi elérhetővé API formájában. A vállalat ugyanakkor közölte, hogy "a mesterséges intelligencia felelősségteljes fejlesztésére és alkalmazására irányuló erőfeszítések részeként a felhasználók egy kiválasztott csoportjával" vizsgálja a DALL-E korlátait és képességeit.
A potenciális károk, például az előítéletesség megjelenésének minimalizálása érdekében a csapat igyekezett megtisztítani az adathalmazt: eltávolítva a valódi emberekről készült fotókat, fegyvereket, horogkereszteket és így tovább.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak