Számos más kezdeményezés mellett természetesen a Google kutatóit is foglalkoztatja a gépek képfelismerési képességének fejlesztése. A cég fejlesztői blogján most egy érdekes bejegyzést tettek közzé, amely bepillantást enged a kulisszák mögé.
Mesterséges idegpályák
A keresőóriás kutatócsapata egy olyan algortimuson dolgozik, amely mesterséges ideghálózat segítségével igyekszik az emberi képfelismerést szimulálni. A mesterséges intelligencia rétegekből áll, ahol az egyes szintek más és más típusú ismertető jegyek után kutatnak, majd a kapott eredményt továbbítják a felsőbb, egyre bonyolultabb, elvontabb fogalmakkal is megbírkózni képes rétegek felé. Míg az alacsonyabb szinteken csak az alakzat éleit, sarkait igyekszik beazonosítani a program, addig a fejlettebb rétegek már alapvető formákat keresnek (például egy ajtóét vagy levélét), a legutolsó egységek pedig már olyan komplex alakzatokat képesek azonosítani, mint egy épület vagy egy fa.
A kutatók számára azonban nem triviális, hogy az egyes szinteken pontosan mi is zajlik és hogy jut arra a kimenetre a gép, amit végül továbbít a sorban következő szintnek. Ennek megértésére találták ki a feje tetejére állított módszert. Azaz nem egy ismeretlen képet mutatnak a gépi intelligenciának, amiről meg kell állapítania, hogy mit ábrázol, hanem arra utasítják, hogy alakítson át egyet úgy, hogy az egy korábban képek ezreivel "begyakoroltatot" tárgyat vagy élőlényt formázzon.
A fenti képeket egy teljesen értelmezhetetlen, véletlenszerű színes ponthalmazból (vizuális zajból) generálta a mesterséges intelligencia. Minden képnél az volt a feladata, hogy egy bizonyos formát igyekezzen megtalálni, majd felerősítenie az alapképen. A számítógép tehát megkereste például azokat a területeket, amelyek egy banánra hasonlítottak, majd kicsit felnagyította ezeket a halvány hasonlóságokat. A következő körben aztán még inkább be tudta határolni a banánok helyét, újra erősített rajtuk, és így tovább, egészen a kész "műalkotásokig".
Hogy miért fontos ez a visszafelé ellenőrzés, arra konkrét példát is kaptak a kutatók. A fenti képsorozatnál ugyanis súlyzót kellett alkotnia a gépnek. Mint látható, ez nagyjából sikerült is, ám a súlyzókhoz szinte minden esetben egy azokat mozgató emberi kart is odaképzelt a mesterséges intelligencia. Ebből kiderült, hogy a tanítási szakasz nem volt tökéletes, a gép nem tudta elválasztani egymástól a súlyzó és az azt tartó kéz fogalmát.
Pszichedelikus álmok
Még érdekesebb eredményt kaptak a szakemberek akkor, amikor a gépi intelligenciának nem mondták meg, mit is kellene belelátnia egy ábrába. Csak fogtak egy képet, és engedték, hogy szabadon asszociálva erősítse fel azokat a formákat, amelyeket felismerni vél. A történetet még azzal is megfűszerezték, hogy ezt a feladatot kifejezetten egy mesterséges idegi szintnek adták ki. Mivel ahogy már korábban írtuk, ezek a szintek teljesen más típusú és komplexitású mintázatokat keresnek, az átalakítás is eltérő eredményeket hozott.
A kép kattintásra nagyítható
A magasabb szintű felismerő rétegek nem egyszer elképesztően érdekes képeket gyártottak. Egyikről-másikról simán el lehetne hinni, hogy egy pszichedelikus stílusú művész alkotása, és nem egy álmodozó algoritmusé. Azok a rendszerek, amelyeket például állatok képével tanítottak a formák felismerésére, mindenhová be tudták csempészni a nekik "kedves" madarakat, kutyákat. Így lett a nyitóképen látható híres Edvard Munch festmény sikoltó embere is kutyafejű. De hasonló bravúrokat mutattak be azok a gépi tanulók is, amelyeket épületek, városok képeivel kondicionáltak.
Aki a gépi művészet további kortárs remekeiben akar gyönyörködni, látogasson el a kutatói képgalériára.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak