A Midjourney az egyik legnépszerűbb mesterséges intelligencia alapú szöveg-kép generátor, ami tavaly ősszel azzal került a címlapokra, hogy az egyik felhasználója megnyert egy képzőművészeti versenyt a szoftverrel készített kép felhasználásával. A megoldás egy Discord szerveren keresztül működik, és Discord botparancsokat használ a kommentárok szerint apokaliptikus vagy hátborzongató képeinek elkészítéséhez, más hasonló szolgáltatásokkal (DALL-E stb.) szemben nem zárva ki a hírességeket vagy közéleti személyiségeket ábrázoló kimenetek létrehozását sem.
Ezzel összefüggő dolog, hogy a szöveg-kép generátor fejlesztőinek állítólag nem céljuk a valósághű képek létrehozása. A PetaPixel fotós oldal ezzel kapcsolatban a Midjourney alapítóját idézi, aki szerint kitartó próbálkozással meg lehet találni azokat a szókombinációkat, amelyek realisztikus alkotásokhoz vezetnek, de az MI fókuszában akkor is a művészi megjelenítés áll. A Midjourney felhasználónként 25 ingyenes képet biztosít, onnantól havi 10 dollárért váltható meg a havi 200 képre szóló alapcsomag, de korlátlan vagy vállalati felhasználás is lehetséges.
A tavaly nyár óta béta verzióban működő platform néhány nappal ezelőtt került ismát a figyelem középpontjába, amikor elsőre élethűnek tűnő fényképeket tettek közzé egy házibuliról és annak kissé rémálomszerű résztvevőiről. Ezek nem titkolt módon a Midjourney segítségével készültek, és már több tízmillióan nézték meg őket a Twitteren. A képszálat közlő Miles Zimmerman szerint a Midjourney már "őrült módon erős", tekintve, hogy a fotók egyike sem valódi, mint ahogy a rajtuk szereplő emberek sem léteznek. A közönség azonban nagy csomó árulkodó jelet fedezett fel az MI beavatkozására.
Nem a kilencujjú ember a legnagyobb gondunk
Bár a képek elsőre meggyőzőnek tűnhetnek, időnként túl sok vagy túl kevés ujjat látni az emberek kezén, a szájuk is a kelleténél jobban tele van fogakkal, a tetoválások sokszor csak valami penészfoltnak tűnnek, a szelfizők nem létező eszközökkel pózolnak, és látványosak az egyes képeken megjelenő extra kulcscsontok vagy a levegőben lebegő karok is. A dolog azonban nem csak azt mutatja be, hogy az MI-nek egyelőre komoly problémákat okoz az emberi test bizonyos részeinek a renderelése, hanem példát ad annak elfogult működésére is.
Az "AI bias" néven hivatkozott jelenség lényege, hogy az öntanuló algoritmusok gyakran jutnak gyakorlati vagy morális szempontból is fals eredményekre. Ez a meglévő visszásságok leképzésével vagy újratermelésével járhat, amit még veszélyesebbé tesz, hogy a rendszerek működését nem feltétlenül látja át az sem, akire pedig tényleges hatással van az alkalmazásuk. Van, aki szerint az elfogultságot nem felszámolni, hanem irányítani kell, mások szerint viszont a proszociális viselkedést meghatározó (ön)tudat nélkül az MI-t lehetetlen összhangba hozni a saját értékeinkkel.
Zimmerman például ezt a generátort is elfogultnak találta. Eleve nagyon pontos leírásokat kellett adnia, ha azt akarta, hogy a nem létező bulizók férfinak nézzenek ki, de még ezzel sincs vége, mert amikor simán csak embereket kért a képre, akkor azok alapértelmezett módon mindig fehér emberek lettek. Mások azt vetették fel, hogy a mesterséges intelligencia irreális szépségideálokat mutat be a képeken, utalva az embereket amúgy is nyomasztó alkalmazkodási kényszerre. Az ilyesmire pedig fontosabb lenne megoldást találni, mint arra, hogy a gépi tanuló algoritmus mit kezd a kéz ujjainak számával.
a kép forrása: twitter.com/mileszim
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak