Egyelőre nem lesz a mesterséges intelligenciából Dr. Dolittle, de a kísérletek közelebb vihetnek bennünket a természet mélyebb megértéséhez.
Hirdetés
 

Nemrégiben gépi tanulási támogatással fedezték fel, hogy az elefántok néven nevezik egymást. A MIT (Massachusetts Institute of Technology) mesterséges intelligencia laborjának munkatársai (Computer Science & Artificial Intelligence Laboratory, CSAIL) viszont azt is ki akarják deríteni, hogy mit mondanak egymásnak.

Egy kutatócsapat olyan mesterséges intelligencia modellen dolgozik, ami többek között az állatok kommunikációjának megértésében segíthet. Ehhez olyan rendszert építettek, amely képes egyedül – végső soron a semmiből – csupán hangos videókat nézve elsajátítani egy nyelvet.

Az ötlet nagyon leegyszerűsítve az volt, hogy ha megfelelő mennyiségű hang- és képinformációt biztosítanak egy algoritmusnak, abból az előbb-utóbb képes lesz összekapcsolni a hangot a képpel (jel-jelölt), sőt az adott nyelv használati szabályait is absztrahálja. Végső soron a gyerekek is így tanulnak, figyelik a környezetüket, és hallgatják a körülöttük folyó beszédet.

Fejlesztettek egy DenseAV nevű algoritmust, aminek egyetlen célja: nyelvet tanulni videók segítségével, azaz egy képi információ előhívhassa (megjósolhassa) az azt jelző hangcsoportot, és fordítva, a hangcsoport előhívhassa a jelölt képet. Ha például a videóban azt mondták 'süssük meg a süteményt 350 fokon', akkor az algoritmus ismerje fel, hogy a képernyőn egy sütemény vagy egy sütő van, példálózott a kutatócsoport egyik tagja, Mark Hamilton a MIT CSAIL online oldalára készített beszámolóban (a kutató által emlegetett 350 fok természetesen Fahrenheitben értendő). Ennek a szintnek az eléréséhez persze több millió videó megnézésén át vezet az út.

Ha elhangzott egy videóban a 'dog' szó, a DenseAV elkezdett kutyákat keresni a videofolyamban. Ám akkor is kutatott kutyát ábrázoló pixelek után, amikor csak ugatást "hallott". Sőt az algoritmus nemcsak két, egymástól független hang-kép párosítást azonosított, hanem azokat keresztbe is tudta kombinálni: azaz például a kutyaugatást összekapcsolta a 'dog' hangcsoporttal és a kutya képével, vagy viszont, a képet mindkét hangcsoporttal és így tovább.

A kutatócsoport szerint a DenseAV sokkal árnyaltabban tudja megragadni hang és kép kapcsolatát, mint a korábbi hasonló algoritmusok. Azok ugyanis általában egy fogalomra szűkítik a kapcsolatot: "a kutya leült a fűre" mondatot például csupán egy kutya képével kapcsolják össze. A DenseAV ezzel szemben a mondat teljes jelentéstartományát fel tudja térképezni, azaz felismeri a fű, illetve az azzal valamilyen térbeli viszonyban lévő kutya közötti kapcsolatot is.

Segíthet a természet mélyebb megértésében

A módszer közelebb vihet a fejlett, videoforrásból táplálkozó öntanuló rendszerek fejlesztéséhez. De talán ennél is izgalmasabb, hogy ha megfelelő mennyiségű forrás áll rendelkezésre, képesek leszünk dekódolni az állatok kommunikációját, például a delfinek, a bálnák vagy épp az elefántok "beszédét". Sőt, egy ilyen rendszerrel fel lehetne térképezni más, akár a kommunikációtól teljesen eltérő jelrendszerek "használati" szabályait is. Hamilton szerint egy ilyen modell közelebb vihet bennünket a Föld szeizmikus hangjai és a geológiai jelenségek közötti összefüggések megértéséhez.

A Hamiltonék csapata állítja, a DenseAV pontosabban azonosít képi és hanginformáció alapján bármely csúcsmodellnél. David Harwath, az austini Texasi Egyetem oktatója szerint a modell egyik legfontosabb újdonsága, hogy nincsenek feltevései a beszélt nyelvre vonatkozóan, ezért elvileg bármilyen nyelvű adatokból tanulhat.

Bővebb részletek a kutatásról a MIT CSAIL oldalán. »

Piaci hírek

Hasít a kelet-közép-európai és a magyar vezetékes net?

Az nPerf közleménye szerint igen. A régióban Magyarországon, Romániában, Szlovéniában, Moldovában és Szlovákiában is jó a vezetékes net.
 
Hirdetés

Produktivitás mint stratégiai előny: mit csinálnak másként a sikeres cégek?

A META-INF által szervezett Productivity Day 2026 idén a mesterséges intelligencia és a vállalati produktivitás kapcsolatát helyezi fókuszba. Az esemény középpontjában a META-INF nagyszabású produktivitási kutatásának bemutatása áll, amely átfogó képet nyújt a magyar vállalatok hatékonyságáról és működési kihívásairól.

Vezetői példamutatás és megfelelő oktatás, vállalatikultúra-váltás nélkül gyakorlatilag lehetetlen adatvezérelt működést bevezetni. Cikkünk nemcsak a buktatókról, hanem azok elkerülésének módjairól is szól.

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!

Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.

2026.03.10. UP Rendezvénytér

RÉSZLETEK »

A PMI Budapest, Magyar Tagozat májusban rendezi meg az Art of Projects szakmai konferenciát. A rendezvény kapcsán rövid írásokban foglalkozunk a projektmenedzsment szakma újdonságaival. Az első téma: mit gondolunk ma a projekttervezésről?

Régen minden jobb volt? A VMware licencelési változásai

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.