Egymilliárd Insta-fotót emésztett meg a szuperokos képfelismerő

Bitport2021.03.09.Közösség & HR

A Facebook kutatói szerint a SEER modell áttörést jelent a felügyelet nélküli tanulásban, és forradalmasíthatja a gépi képfeldolgozás hatékonyságát is.

A Facebook mesterséges intelligenciával foglalkozó blogja a múlt héten osztott meg részleteket a vállalat egyik programjáról, amelynek eddigi eredményeit áttörésnek nevezi a gépi látás (computer vision) fejlődésében, utat nyitva az eddiginél rugalmasabb, pontosabb és alkalmazkodóképesebb rendszerek jövöbeni fejlesztésében. A SEER néven futó MI-modell teljesítménye a bejegyzés szerint lényegesen felülmúlja a már létező objektumfelismerő programokét, 84,2 százalékos értékelést szerezve az ImageNet vizuláis adatbázisán végzett tesztekben.

Ez tulajdonképpen azt jelenti, hogy a Facebook algotritmusa ilyen pontossággal volt képes osztályozni azokat a dolgokat, amelyek az általa vizsgált fotókon szerepeltek. Ennél is lényegesebb azonban, hogy a SEER betanítása nem körültekintően összeállított és felcímkézett adatkészleteken történt, hanem az Instagramról összevadászott, nem válogatott és nem címkézett képeken. Bár az önfelügyelt tanulás (self-supervised learning) koncepciója az utóbbi időben több alkalmazásában is komoly előrelépésekhez vezetett, a gépi látást eddig még nem forradalmasította.

Az MI-kutatások egyes területein, így például a természetes nyelvek feldolgozásában is kifejezetten sikeres technika lényege, hogy az ilyen elven működő rendszerek közvetlenül próbálnak tanulni a rendelkezésükre bocsátott információból. Más szóval, a fejlődésük során nem támaszkodnak a megfelelő módon válogatott és osztályozott adatokra, legyen szó a fotókon szereplő tárgyak felismeréséről vagy a szövegek szabatos fordításáról. Az önfelügyelt tanuláshoz így nincs szükség irdatlan méterű adatkészletekre, amelyek címkézése számottevő emberi közreműködést is igényel.

Másfelől éppen ez a képesség az, ami lehetővé teszi a minél nagyobb adatkészletek felhasználását, éppen amiatt, mert azok következetes összeállítása nem igényel jelentős emberi beavatkozást. Nem véletlen, hogy a tanulásuk során egyre terjedelmesebb adatbázisokat feldolgozó algoritmusok teljesítménye látványosan javul a kérdés-megválaszoló, a gépi fordító vagy a természetes nyelvű következtetéses (natural language inference) alkalmazásokban, míg a SEER modell a maga területén úttörőnek számít a technika eredményes kiaknázásában.

Csak a lényeget tartják meg maguknak

A Facebook szerint a SEER a legelső, teljes önfelügyelet mellett működő computer vison modell, amelyet az internetről véletlenszerűen gyűjtött képeken tanítottak, szemben azokkal az ugyancsak önfelügyelt tanulásra épülő programokkal, amelyek az ImageNet több milliós, szakemberek által válogatott és címkézett adatkészletén okosodnak. A Facebook az ImageNet adatbázisát ezzel sezmben benchmarkolásra használja, és a mostani megállapítása szerint a SEER már világosan lepipálja a felügyelt tanulással fejlesztett modelleket, legyen szó a szokatlan szögből készített felvételekről, az objektumok észleléséről, a szegmentációról vagy a képek osztályozásáról.

A bejegyzés szerint mindez azt bizonyítja, hogy a gépi látás fejlesztésében is túl lehet lépni a nagy gonddal összeállított adatkészleteken, és az önfelügyelt tanulás alkalmazásával totál véletlenszerű képeken is be lehet tanítani magas minőségű modelleket. Mindez természetesen rendkívül szofisztikált algoritmusokat feltételez, és a kutatók előtt álló kihívások sem feleltethetők meg a nyelvi feldolgozásra tervezett gépi intelligenciának. A munka során milliárdos nagyságrendben vették igénybe az Instagramról származó publikus képeket, a következő időszak legfontosabb feladatának pedig azt tekintik, hogy a szoftverkód és a kutatási technikák tisztításával a számítási erőforrások költségarányos felhasználásában is javítsák a rendszer hatékonyságát.

A Facebook azt tervezi, hogy közzé teszi a kutatás bizonyos részleteit, és egy olyan nyílt könyvtárat is létrehoz, ami más kutatóknak is lehetővé teszi a technika vizsgálatát, a SEER eljárását vagy az alkalmazott instagramos képeket viszont nem osztja meg a közönséggel. Ez utóbbinak az (is) az oka, hogy a felhasználói szerződések szerint a Facebook mindazokat a fotókat szabadon felhasználhatja kutatási és technológiai fejlesztési célokra, amelyeket bárki feltölt az általa üzemeltetett Instagram szolgáltatásba, ahhoz azonban nincs joga, hogy ezeket ugyanilyen céllal harmadik félnek is továbbadja.

Közösség & HR

Bűncselekmények gyanújával készült feljelentés a KRÉTA-rendszer ügyében

A 2019-ig visszatekintő kormányzati átvilágítás "gyanús mintázatot" talált, ennek nyomán pedig 40 oldalas feljelentés készült a KRÉTA, a Neptun és az állami iratkezelők 100 milliárd forintot is meghaladó kifizetésit illetően.

A hónap témája

Mit kell tenni, amikor beüt a krach?

Előrelátó tervezés és meghatározott menetrend segíti az incidensek minél gyorsabb elhárítását. Ehhez azonban sok feladatot és felelősséget kell tisztázni – még jóval azelőtt, hogy bekövetkezik a baj.

a melléklet támogatója a ONE Solutions

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Bűncselekmények gyanújával készült feljelentés a KRÉTA-rendszer ügyében

Mit kell tenni, amikor beüt a krach?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!