Alig néhány héttel ezelőtt számoltunk be az OpenAI boszorkánykonyhájában kifőzött, szöveges bevitel alapján több stílusban is meggyőző képeket alkotó DALL-E új képességeiről. A Google-nél azonban nem lehettek elájulva a teljesítménytől, mivel saját megoldásuk sokkal előrébb tart a témában. Legalábbis ezt igyekeznek bizonygatni egy frissen publikált tanulmányukkal.
Betűkből alkotott látvány
Az Imagen elnevezésű projekt külön oldalt kapott, ahol némileg limitált formában, de a felhasználók is bebizonyosodhatnak arról, hogy egy másik algoritmus sem képes ennyire élethűen ábrázolni mondjuk azt, hogy "egy robotpár az Eiffel-torony előtt vacsorázik". A gondosan megválogatott példák alapján az Imagen valóban páratlan pontossággal és élethűséggel képes megragadni a témát pusztán abból a néhány szóból kiindulva, amit az adott feladat megvalósításához kap.
Ugyanakkor az több szempontból sem véletlen, hogy a projekt oldalán csak néhány variációban lehet próbára tenni a mesterséges intelligencia képességeit. Ezek a szövegből képet alkotó algoritmusok ugyanis nem feltétlenül képesek egyenletes jó teljesítményre, és bizonyos szavakkal, elemekkel rendszeresen meggyűlhet a bajuk, ami végső soron a végtermékként előállított fotók általános minőségét is rontja.
A Google-nél azonban ettől függetlenül úgy látják, az övék a legjobb "célszerszám" erre a feladatra. Ennek alátámasztására alkottak is egy értékelő rendszert. A DrawBench egy mintegy 200 előre rögzített kiinduló mondatból áll, melyekből a tesztbe bevont négy különböző algoritmus előállította a saját verzióját. Ezeket aztán önkéntesekkel értékeltették a kompozíció pontossága és élethűsége szerint. Nem meglepő módon a Google által lobogtatott teszt eredményei az Imagen elsöprő fölényét hozták.
Veszélyes játék
Azt viszont a Google is elismeri, hogy minden ilyen rendszer, beleértve a saját maguk által alkotottat is, súlyos problémák hordozója. A szövegből képet varázsoló mesterséges intelligenciának ugyanis hatalmas mennyiségű tanulási adatkészletre van szükség, amelyet egyszerűen képtelenség különböző paraméterek szerint előzetesen rostálni. A kutatók így kénytelenek óriási tömegben, gyakorlatilag válogatás nélkül "halászni" az alapanyagot az internetről, ami az ezekben megtalálható előítéletek újragenerálását eredményezi. Például ha az a feladat, hogy az algoritmus rajzoljon egy vezérigazgatót, az szinte biztos, hogy egy fehér férfi lesz.
Az algoritmusokkal elkövethető potenciális visszaélések lehetősége a másik komoly ok, amiért ezeket a rendszereket egyik fejlesztő sem nyitja meg a nyilvánosság előtt. A hírhamisítás és álhírek terjedése enélkül is hatalmas problémát jelent a világban, így tényleg nincs nagy szükség arra, hogy bárki képes legyen bármilyen légből kapott ötletét meggyőző képes formátummá varázsolni.
Adathelyreállítás pillanatok alatt
A vírus- és végpontvédelmet hatékonyan kiegészítő Zerto, a Hewlett Packard Enterprise Company platformfüggetlen, könnyen használható adatmentési és katasztrófaelhárítási megoldása.
CIO KUTATÁS
TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?
Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »
Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak