Már egy gép is megkülönbözteti a foxit a lakeland terriertől

Bitport2015.05.19.Cloud & big data

A Baidu szuperszámítógépe ma a legpontosabb képfelismerő rendszer a világon. És már építik a még erősebb rendszert.

Az év elején kezdték építeni a kínai keresőóriás, a Baidu szuperszámítógépét, a Minwa-t, melyet a gépi tanulás és a mesterséges intelligencia kutatásának a szolgálatába állítottak. Itt vannak az első eredmények, melyek egyelőre minden várakozást felülmúlnak.

Az első kísérletek során az ImageNet adatbázisából 1 millió képet rendeztettek ezer kategóriába a géppel, valamint a hozzá fejlesztett képfelismerő algoritmus segítségével. A kísérlet több mint ígéretes. A Baidu rendszere árnyalt megkülönböztetésekre is képes: még egy lakeland terriert is meg tud különböztetni egy drótszőrű foxitól, ami valószínűleg még egy kutyákat csak felszínesen ismerőnek is gondot okozna.

De nem is ez az igazán nagy fegyvertény. A képfelismerésben még az ember sem végez tökéletes munkát, a kategorizálásban mintegy 5 százalékos hibaaránnyal dolgozik. Ezt már februárban túlszárnyalta a Microsoft algoritmusa, amely 4,94 százalékos hibaaránnyal azonosított be mintegy százezer képet az ImageNet adatbázisából.

A Google, amely szintén komoly erőkkel fejleszti a képfelismerő algoritmusát, mára 4,8 százalékra szorította le annak hibaarányát (februárban ez még 6 százaléknál is magasabb volt). Most a Baidunak a Google-t is sikerült leköröznie 4,58 százalékos hibázási aránnyal. (A teljes kutatási projektről egy kattintásnyira olvashat összefoglaló leírást.)

Habár az emberi hibák aránya ennél magasabb, azt figyelembe kell venni, hogy az emberek nem vétenek kapitális hibát, azaz lehet, hogy összekeverik a vadkacsáknál a hímet és a tojót, ám a sast és a kárókatonát már nem. Ugyanakkor az algoritmus olyan triviális hibát is véthet, amit az ember soha.

Képfelismerő algoritmusok királyvize: ImageNet

A képfelismerő algoritmusokat az ImageNet adatbázisán végzik el. Az ImageNet több mint 14 millió képet tartalmaz, melyek hétköznapi tárgyakat, embereket, állatokat stb. ábrázolnak. A kifejezetten kutatási célokra létrehozott adatbázisra alapozva 2010. óta évente rendezik meg a Large Scale Visual Recognition Challenge nevű versenyt, amelyen egyetemi kutatócsoportok és a nagy cégek (IBM, Microsoft, Google stb.) csapatai is indulnak, hogy összemérjék a gépi tanulásra épülő képfelismerésben elért eredményeiket.

Tavaly ezt a versenyt a Google nyerte. A keresőóriásnál többek között a vezető nélküli autó fejlesztése miatt is nagy energiákat ölnek ennek a területnek a kutatásába.

Andrew Ng
Angliában született, szülei hongkongiak. Tanult Szingapúrban, majd pedig az Egyesült Államokban. A mesterfokozatot a MIT-en, a PhD-t a Berkeley-n szerezte meg. 2002-től a Stanfordon dolgozik és tanít. Fő kutatási területet a mesterséges intelligencia és a gépi tanulás. 2011-ben ő indítja el a Google Brain projektet, melynek egyik ismert eredménye az Android beszédfelismerő része. A Baidu tavaly igazolta le, hogy irányítsa a kínai keresőcég mesterséges intelligencia projektjét. A gépi tanulásban és a big datában rejlő lehetőségekről is beszélt tavaly augusztusban a Forbes-nak adott interjújában.

Jól példázza az ezen a téren tapasztalható rohamos fejlődést, hogy 2011-ben a Stanfordon kidolgozott képfelismerő algoritmus még csupán 80 százalékos pontossággal dolgozott ebben az adatbázisban, ráadásul sokkal kevésbé árnyal azonosításra volt képest, mint a most legjobban teljesítő megoldások: 50 ezer képet 10 különböző kategóriába tudott besorolni.

A hangfelismerés legalább ilyen fontos

A Baidu kutatócsoportjának vezetője, Andrew Ng, akit egyébként a Google-től igazolt le tavaly a Baidu, úgy nyilatkozott, hogy a következő másfél év legfontosabb feladata, hogy tovább tökéletesítsék a felismerő algoritmust, valamint megfelelő számítási teljesítményt is tegyenek mögé. Olyan gépet építenek hozzá, amely másodpercenként 7 billiárd (10¹⁵) művelet végrehajtására képes, azaz 7 PFLOP/s-os teljesítményre lesz képes. A Minwa ennek alig tizedére képes. (Ha megépül az új gép, tovább olvad az amerikaiak előnye a szuperszámítógépek frontján, mivel egy ilyen gép már befér a világ top 10 szuperszámítógépe közé.)

Ez adja majd a beszédfelismerő algoritmus fejlesztésének hátterét is. A Baidu mintegy 14 ezer órányi hanganyagot használ ahhoz, hogy tökéletesítse angol és kínai beszédfelismerő algoritmusát.

Megjegyzendő ugyanakkor, hogy az ilyen kutatások egyelőre csak a legnagyobb cégek kiváltságai, főleg a szükséges számítási kapacitás biztosítása miatt. Az azonban látszik, hogy a nagy internetes cégek – többek között a Google és a Baidu mellett a Facebook is – nagy erőket fektetnek ezekbe a kutatásokba. Működésükből adódóan ugyanis ők alapból is rendelkeznek minden erőforrással ehhez: jó kutatócsapattal és a vizsgálatokhoz megfelelően nagy mennyiségű adathalmazzal.

Cloud & big data

A kínai vezetésnek elege lett a robotokkal való hetyegésből

Miközben a tengerentúlon a felelősség kérdésén és a megfelelő védőkorlátok meghatározásán zsinatolnak az emberszerű viselkedésükkel függőséget gerjesztő chatbotok ügyében, addig Kínában nemrég kemény szabályokat hoztak az ember-gép interakció kordában tartására.

A hónap témája

Mit kell tenni, amikor beüt a krach?

Előrelátó tervezés és meghatározott menetrend segíti az incidensek minél gyorsabb elhárítását. Ehhez azonban sok feladatot és felelősséget kell tisztázni – még jóval azelőtt, hogy bekövetkezik a baj.

a melléklet támogatója a ONE Solutions

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

A kínai vezetésnek elege lett a robotokkal való hetyegésből

Mit kell tenni, amikor beüt a krach?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!