A Baidu szuperszámítógépe ma a legpontosabb képfelismerő rendszer a világon. És már építik a még erősebb rendszert.

Az év elején kezdték építeni a kínai keresőóriás, a Baidu szuperszámítógépét, a Minwa-t, melyet a gépi tanulás és a mesterséges intelligencia kutatásának a szolgálatába állítottak. Itt vannak az első eredmények, melyek egyelőre minden várakozást felülmúlnak.

Az első kísérletek során az ImageNet adatbázisából 1 millió képet rendeztettek ezer kategóriába a géppel, valamint a hozzá fejlesztett képfelismerő algoritmus segítségével. A kísérlet több mint ígéretes. A Baidu rendszere árnyalt megkülönböztetésekre is képes: még egy lakeland terriert is meg tud különböztetni egy drótszőrű foxitól, ami valószínűleg még egy kutyákat csak felszínesen ismerőnek is gondot okozna.

De nem is ez az igazán nagy fegyvertény. A képfelismerésben még az ember sem végez tökéletes munkát, a kategorizálásban mintegy 5 százalékos hibaaránnyal dolgozik. Ezt már februárban túlszárnyalta a Microsoft algoritmusa, amely 4,94 százalékos hibaaránnyal azonosított be mintegy százezer képet az ImageNet adatbázisából.

A Google, amely szintén komoly erőkkel fejleszti a képfelismerő algoritmusát, mára 4,8 százalékra szorította le annak hibaarányát (februárban ez még 6 százaléknál is magasabb volt). Most a Baidunak a Google-t is sikerült leköröznie 4,58 százalékos hibázási aránnyal. (A teljes kutatási projektről egy kattintásnyira olvashat összefoglaló leírást.)

Habár az emberi hibák aránya ennél magasabb, azt figyelembe kell venni, hogy az emberek nem vétenek kapitális hibát, azaz lehet, hogy összekeverik a vadkacsáknál a hímet és a tojót, ám a sast és a kárókatonát már nem. Ugyanakkor az algoritmus olyan triviális hibát is véthet, amit az ember soha.

Képfelismerő algoritmusok királyvize: ImageNet

A képfelismerő algoritmusokat az ImageNet adatbázisán végzik el. Az ImageNet több mint 14 millió képet tartalmaz, melyek hétköznapi tárgyakat, embereket, állatokat stb. ábrázolnak. A kifejezetten kutatási célokra létrehozott adatbázisra alapozva 2010. óta évente rendezik meg a Large Scale Visual Recognition Challenge nevű versenyt, amelyen egyetemi kutatócsoportok és a nagy cégek (IBM, Microsoft, Google stb.) csapatai is indulnak, hogy összemérjék a gépi tanulásra épülő képfelismerésben elért eredményeiket.

Tavaly ezt a versenyt a Google nyerte. A keresőóriásnál többek között a vezető nélküli autó fejlesztése miatt is nagy energiákat ölnek ennek a területnek a kutatásába.

Andrew Ng
Angliában született, szülei hongkongiak. Tanult Szingapúrban, majd pedig az Egyesült Államokban.  A mesterfokozatot a MIT-en, a PhD-t a Berkeley-n szerezte meg. 2002-től a Stanfordon dolgozik és tanít. Fő kutatási területet a mesterséges intelligencia és a gépi tanulás. 2011-ben ő indítja el a Google Brain projektet, melynek egyik ismert eredménye az Android beszédfelismerő része. A Baidu tavaly igazolta le, hogy irányítsa a kínai keresőcég mesterséges intelligencia projektjét. A gépi tanulásban és a big datában rejlő lehetőségekről is beszélt tavaly augusztusban a Forbes-nak adott interjújában.

Jól példázza az ezen a téren tapasztalható rohamos fejlődést, hogy 2011-ben a Stanfordon kidolgozott képfelismerő algoritmus még csupán 80 százalékos pontossággal dolgozott ebben az adatbázisban, ráadásul sokkal kevésbé árnyal azonosításra volt képest, mint a most legjobban teljesítő megoldások: 50 ezer képet 10 különböző kategóriába tudott besorolni.

A hangfelismerés legalább ilyen fontos

A Baidu kutatócsoportjának vezetője, Andrew Ng, akit egyébként a Google-től igazolt le tavaly a Baidu, úgy nyilatkozott, hogy a következő másfél év legfontosabb feladata, hogy tovább tökéletesítsék a felismerő algoritmust, valamint megfelelő számítási teljesítményt is tegyenek mögé. Olyan gépet építenek hozzá, amely másodpercenként 7 billiárd (1015) művelet végrehajtására képes, azaz 7 PFLOP/s-os teljesítményre lesz képes. A Minwa ennek alig tizedére képes. (Ha megépül az új gép, tovább olvad az amerikaiak előnye a szuperszámítógépek frontján, mivel egy ilyen gép már befér a világ top 10 szuperszámítógépe közé.)

Ez adja majd a beszédfelismerő algoritmus fejlesztésének hátterét is. A Baidu mintegy 14 ezer órányi hanganyagot használ ahhoz, hogy tökéletesítse angol és kínai beszédfelismerő algoritmusát.

Megjegyzendő ugyanakkor, hogy az ilyen kutatások egyelőre csak a legnagyobb cégek kiváltságai, főleg a szükséges számítási kapacitás biztosítása miatt. Az azonban látszik, hogy a nagy internetes cégek – többek között a Google és a Baidu mellett a Facebook is – nagy erőket fektetnek ezekbe a kutatásokba. Működésükből adódóan ugyanis ők alapból is rendelkeznek minden erőforrással ehhez: jó kutatócsapattal és a vizsgálatokhoz megfelelően nagy mennyiségű adathalmazzal.

Cloud & big data

Újra szintet lépett az ausztrál robotpuli

Az évek óta fejlesztett SwagBot terelőrobot már mesterséges intelligenciára épülő képességekkel is rendelkezik, és akár a mezőgazdasági drónokkal is együttműködhet.
 
A software defined network már évek óta velünk él. Csak idő kérdése volt a koncepciót kiterjesztése a WAN-okra.

a melléklet támogatója a Yettel

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.