Egyelőre nem lesz a mesterséges intelligenciából Dr. Dolittle, de a kísérletek közelebb vihetnek bennünket a természet mélyebb megértéséhez.

Nemrégiben gépi tanulási támogatással fedezték fel, hogy az elefántok néven nevezik egymást. A MIT (Massachusetts Institute of Technology) mesterséges intelligencia laborjának munkatársai (Computer Science & Artificial Intelligence Laboratory, CSAIL) viszont azt is ki akarják deríteni, hogy mit mondanak egymásnak.

Egy kutatócsapat olyan mesterséges intelligencia modellen dolgozik, ami többek között az állatok kommunikációjának megértésében segíthet. Ehhez olyan rendszert építettek, amely képes egyedül – végső soron a semmiből – csupán hangos videókat nézve elsajátítani egy nyelvet.

Az ötlet nagyon leegyszerűsítve az volt, hogy ha megfelelő mennyiségű hang- és képinformációt biztosítanak egy algoritmusnak, abból az előbb-utóbb képes lesz összekapcsolni a hangot a képpel (jel-jelölt), sőt az adott nyelv használati szabályait is absztrahálja. Végső soron a gyerekek is így tanulnak, figyelik a környezetüket, és hallgatják a körülöttük folyó beszédet.

Fejlesztettek egy DenseAV nevű algoritmust, aminek egyetlen célja: nyelvet tanulni videók segítségével, azaz egy képi információ előhívhassa (megjósolhassa) az azt jelző hangcsoportot, és fordítva, a hangcsoport előhívhassa a jelölt képet. Ha például a videóban azt mondták 'süssük meg a süteményt 350 fokon', akkor az algoritmus ismerje fel, hogy a képernyőn egy sütemény vagy egy sütő van, példálózott a kutatócsoport egyik tagja, Mark Hamilton a MIT CSAIL online oldalára készített beszámolóban (a kutató által emlegetett 350 fok természetesen Fahrenheitben értendő). Ennek a szintnek az eléréséhez persze több millió videó megnézésén át vezet az út.

Ha elhangzott egy videóban a 'dog' szó, a DenseAV elkezdett kutyákat keresni a videofolyamban. Ám akkor is kutatott kutyát ábrázoló pixelek után, amikor csak ugatást "hallott". Sőt az algoritmus nemcsak két, egymástól független hang-kép párosítást azonosított, hanem azokat keresztbe is tudta kombinálni: azaz például a kutyaugatást összekapcsolta a 'dog' hangcsoporttal és a kutya képével, vagy viszont, a képet mindkét hangcsoporttal és így tovább.

A kutatócsoport szerint a DenseAV sokkal árnyaltabban tudja megragadni hang és kép kapcsolatát, mint a korábbi hasonló algoritmusok. Azok ugyanis általában egy fogalomra szűkítik a kapcsolatot: "a kutya leült a fűre" mondatot például csupán egy kutya képével kapcsolják össze. A DenseAV ezzel szemben a mondat teljes jelentéstartományát fel tudja térképezni, azaz felismeri a fű, illetve az azzal valamilyen térbeli viszonyban lévő kutya közötti kapcsolatot is.

Segíthet a természet mélyebb megértésében

A módszer közelebb vihet a fejlett, videoforrásból táplálkozó öntanuló rendszerek fejlesztéséhez. De talán ennél is izgalmasabb, hogy ha megfelelő mennyiségű forrás áll rendelkezésre, képesek leszünk dekódolni az állatok kommunikációját, például a delfinek, a bálnák vagy épp az elefántok "beszédét". Sőt, egy ilyen rendszerrel fel lehetne térképezni más, akár a kommunikációtól teljesen eltérő jelrendszerek "használati" szabályait is. Hamilton szerint egy ilyen modell közelebb vihet bennünket a Föld szeizmikus hangjai és a geológiai jelenségek közötti összefüggések megértéséhez.

A Hamiltonék csapata állítja, a DenseAV pontosabban azonosít képi és hanginformáció alapján bármely csúcsmodellnél. David Harwath, az austini Texasi Egyetem oktatója szerint a modell egyik legfontosabb újdonsága, hogy nincsenek feltevései a beszélt nyelvre vonatkozóan, ezért elvileg bármilyen nyelvű adatokból tanulhat.

Bővebb részletek a kutatásról a MIT CSAIL oldalán. »

Piaci hírek

Rendőri fellépés vetett véget az első utcai ember-robot veszekedésnek

A kínai Makaón egy idős asszony támadta le a háta mögött tébláboló humanoidot, aki véletlenül alaposan ráijesztett.
 
A VMware felvásárlása és licencelési gyakorlatának átalakítása erősen rányomta a bélyegét az adatközponti infrastruktúrára: a korábban kiszámítható alap bizonytalanná és gyakran költségesebbé vált.

a melléklet támogatója az EURO ONE

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.