
A neurális hálózatok pontosabb eredményeket generálhatnak az mesterséges intelligenciával létrehozott képekkel betanítva, mint a valódi felvételek alkalmazásával: az MIT és a Google tudósai szerint a szintetikus képek hatékonyabban segítik az MI-modelleket a precíz vizuális megjelenítésben, amelyek ennek következtében alaposabb képeket alkotnak az írott parancsok alapján. Ezt támogatná a csoport által fejlesztett StableRep rendszer, ami nemcsak hasznosítja a mesterségesen alkotott képeket, hanem a népszerű szöveg-kép generátorok (például a Stable Diffusion) felhasználásával el is készíti azokat.
Más szóval, egy megfelelően betanított mesterséges intelligenciát dobnak be más MI-modellek tanítására, és leírásuk szerint a StableRep révén betanult ábrázolások ugyanazokat a szöveges promptokat összehasonlítva felülmúlják a valódi felvételeken képzett csúcsmodellek, így a SimCLR vagy a CLIP teljesítményét a nagyméretű adatkészleteken. Ez utóbbi azért lényeges, mert StableRep esetében 20 millió szintetikus képről, a CLIP esetében pedig 50 millió valódi képről beszélünk, vagyis kevesebb adatra van szükség a hálózat képzéséhez, miközben jobb eredményeket lehet elérni az új megközelítés alkalmazásával.
Minden problémát ez sem old meg
A StableRep lényge tehát az lenne, hogy a modell többet tudjon meg a magasabb szintű fogalmakról a kontextuson és a variációkon keresztül: ha a tanításhoz több olyan képet használnak, amelyek mindegyike ugyanabból a szövegből származik, és mindegyik ugyanannak a mögöttes dolognak az ábrázolásáról szól, akkor az MI mélyebb megértést nyerhet a mögöttes fogalmakat illetően. A dolog jelentősége, hogy a fejlesztők kevésbé lesznek kénytelenek a valós felvételekre támaszkodni, ha kimerítették a rendelkezésükre álló online forrásokat, bár kizárólag sosem hagyatkozhatnak majd az MI-vel létrehozott anyagokra.
Utóbbiak minősége és felbontása általában gyengébb, mint a valódi fényképeké, de a StableRep így is hatékony eszköz lehet a modellek képzésében. A szerzői jogi problémákat persze ez sem küszöböli ki, hiszen az eredetileg alkalmazott modellek tanításában védett anyagok is felbukkantak, így a szintetikus adatok is magukban foglalhatják a védett adatok pontos másolatát, bár ebben az esetben több lehetőség van a beavatkozásra az érzékeny attribútumok eltávolításával. Erre már csak amiatt is szükség lesz, mert a szintetikus adatok használata ugyan hatékony, de súlyosbítja a mögöttes szöveg-kép modellek torzításait.
CIO kutatás
Merre tart a vállalati IT és annak irányítója?
Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.
Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!
Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?