A Baidu szuperszámítógépe ma a legpontosabb képfelismerő rendszer a világon. És már építik a még erősebb rendszert.

Az év elején kezdték építeni a kínai keresőóriás, a Baidu szuperszámítógépét, a Minwa-t, melyet a gépi tanulás és a mesterséges intelligencia kutatásának a szolgálatába állítottak. Itt vannak az első eredmények, melyek egyelőre minden várakozást felülmúlnak.

Az első kísérletek során az ImageNet adatbázisából 1 millió képet rendeztettek ezer kategóriába a géppel, valamint a hozzá fejlesztett képfelismerő algoritmus segítségével. A kísérlet több mint ígéretes. A Baidu rendszere árnyalt megkülönböztetésekre is képes: még egy lakeland terriert is meg tud különböztetni egy drótszőrű foxitól, ami valószínűleg még egy kutyákat csak felszínesen ismerőnek is gondot okozna.

De nem is ez az igazán nagy fegyvertény. A képfelismerésben még az ember sem végez tökéletes munkát, a kategorizálásban mintegy 5 százalékos hibaaránnyal dolgozik. Ezt már februárban túlszárnyalta a Microsoft algoritmusa, amely 4,94 százalékos hibaaránnyal azonosított be mintegy százezer képet az ImageNet adatbázisából.

A Google, amely szintén komoly erőkkel fejleszti a képfelismerő algoritmusát, mára 4,8 százalékra szorította le annak hibaarányát (februárban ez még 6 százaléknál is magasabb volt). Most a Baidunak a Google-t is sikerült leköröznie 4,58 százalékos hibázási aránnyal. (A teljes kutatási projektről egy kattintásnyira olvashat összefoglaló leírást.)

Habár az emberi hibák aránya ennél magasabb, azt figyelembe kell venni, hogy az emberek nem vétenek kapitális hibát, azaz lehet, hogy összekeverik a vadkacsáknál a hímet és a tojót, ám a sast és a kárókatonát már nem. Ugyanakkor az algoritmus olyan triviális hibát is véthet, amit az ember soha.

Képfelismerő algoritmusok királyvize: ImageNet

A képfelismerő algoritmusokat az ImageNet adatbázisán végzik el. Az ImageNet több mint 14 millió képet tartalmaz, melyek hétköznapi tárgyakat, embereket, állatokat stb. ábrázolnak. A kifejezetten kutatási célokra létrehozott adatbázisra alapozva 2010. óta évente rendezik meg a Large Scale Visual Recognition Challenge nevű versenyt, amelyen egyetemi kutatócsoportok és a nagy cégek (IBM, Microsoft, Google stb.) csapatai is indulnak, hogy összemérjék a gépi tanulásra épülő képfelismerésben elért eredményeiket.

Tavaly ezt a versenyt a Google nyerte. A keresőóriásnál többek között a vezető nélküli autó fejlesztése miatt is nagy energiákat ölnek ennek a területnek a kutatásába.

Andrew Ng
Angliában született, szülei hongkongiak. Tanult Szingapúrban, majd pedig az Egyesült Államokban.  A mesterfokozatot a MIT-en, a PhD-t a Berkeley-n szerezte meg. 2002-től a Stanfordon dolgozik és tanít. Fő kutatási területet a mesterséges intelligencia és a gépi tanulás. 2011-ben ő indítja el a Google Brain projektet, melynek egyik ismert eredménye az Android beszédfelismerő része. A Baidu tavaly igazolta le, hogy irányítsa a kínai keresőcég mesterséges intelligencia projektjét. A gépi tanulásban és a big datában rejlő lehetőségekről is beszélt tavaly augusztusban a Forbes-nak adott interjújában.

Jól példázza az ezen a téren tapasztalható rohamos fejlődést, hogy 2011-ben a Stanfordon kidolgozott képfelismerő algoritmus még csupán 80 százalékos pontossággal dolgozott ebben az adatbázisban, ráadásul sokkal kevésbé árnyal azonosításra volt képest, mint a most legjobban teljesítő megoldások: 50 ezer képet 10 különböző kategóriába tudott besorolni.

A hangfelismerés legalább ilyen fontos

A Baidu kutatócsoportjának vezetője, Andrew Ng, akit egyébként a Google-től igazolt le tavaly a Baidu, úgy nyilatkozott, hogy a következő másfél év legfontosabb feladata, hogy tovább tökéletesítsék a felismerő algoritmust, valamint megfelelő számítási teljesítményt is tegyenek mögé. Olyan gépet építenek hozzá, amely másodpercenként 7 billiárd (1015) művelet végrehajtására képes, azaz 7 PFLOP/s-os teljesítményre lesz képes. A Minwa ennek alig tizedére képes. (Ha megépül az új gép, tovább olvad az amerikaiak előnye a szuperszámítógépek frontján, mivel egy ilyen gép már befér a világ top 10 szuperszámítógépe közé.)

Ez adja majd a beszédfelismerő algoritmus fejlesztésének hátterét is. A Baidu mintegy 14 ezer órányi hanganyagot használ ahhoz, hogy tökéletesítse angol és kínai beszédfelismerő algoritmusát.

Megjegyzendő ugyanakkor, hogy az ilyen kutatások egyelőre csak a legnagyobb cégek kiváltságai, főleg a szükséges számítási kapacitás biztosítása miatt. Az azonban látszik, hogy a nagy internetes cégek – többek között a Google és a Baidu mellett a Facebook is – nagy erőket fektetnek ezekbe a kutatásokba. Működésükből adódóan ugyanis ők alapból is rendelkeznek minden erőforrással ehhez: jó kutatócsapattal és a vizsgálatokhoz megfelelően nagy mennyiségű adathalmazzal.

Cloud & big data

A sötét webet figyelik a Google MI-ügynökei

A Google Threat Intelligence rendszerében a Gemini-alapú ágensek önjáróan elemezgetik a dark webes fórumokat, hogy az eddigieknél hatékonyabban tárják fel az adatszivárgásokat és a kezdeti hozzáféréseket.
 
Nincs egy új, "alapértelmezett" platform a VMware mellett, helyett; az informatikai vezetők egy, a korábbinál jelentősen összetettebb döntési helyzetben találják magukat 2026-ban. Cikkünk arra a kérdésre keresi a választ, hogy milyen lehetőségek közül választhatnak a CIO-k.

a melléklet támogatója az EURO ONE

Hirdetés

HPE Morpheus VM Essentials: a virtualizáció arany középútja

Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.