Egyelőre nem lesz a mesterséges intelligenciából Dr. Dolittle, de a kísérletek közelebb vihetnek bennünket a természet mélyebb megértéséhez.

Nemrégiben gépi tanulási támogatással fedezték fel, hogy az elefántok néven nevezik egymást. A MIT (Massachusetts Institute of Technology) mesterséges intelligencia laborjának munkatársai (Computer Science & Artificial Intelligence Laboratory, CSAIL) viszont azt is ki akarják deríteni, hogy mit mondanak egymásnak.

Egy kutatócsapat olyan mesterséges intelligencia modellen dolgozik, ami többek között az állatok kommunikációjának megértésében segíthet. Ehhez olyan rendszert építettek, amely képes egyedül – végső soron a semmiből – csupán hangos videókat nézve elsajátítani egy nyelvet.

Az ötlet nagyon leegyszerűsítve az volt, hogy ha megfelelő mennyiségű hang- és képinformációt biztosítanak egy algoritmusnak, abból az előbb-utóbb képes lesz összekapcsolni a hangot a képpel (jel-jelölt), sőt az adott nyelv használati szabályait is absztrahálja. Végső soron a gyerekek is így tanulnak, figyelik a környezetüket, és hallgatják a körülöttük folyó beszédet.

Fejlesztettek egy DenseAV nevű algoritmust, aminek egyetlen célja: nyelvet tanulni videók segítségével, azaz egy képi információ előhívhassa (megjósolhassa) az azt jelző hangcsoportot, és fordítva, a hangcsoport előhívhassa a jelölt képet. Ha például a videóban azt mondták 'süssük meg a süteményt 350 fokon', akkor az algoritmus ismerje fel, hogy a képernyőn egy sütemény vagy egy sütő van, példálózott a kutatócsoport egyik tagja, Mark Hamilton a MIT CSAIL online oldalára készített beszámolóban (a kutató által emlegetett 350 fok természetesen Fahrenheitben értendő). Ennek a szintnek az eléréséhez persze több millió videó megnézésén át vezet az út.

Ha elhangzott egy videóban a 'dog' szó, a DenseAV elkezdett kutyákat keresni a videofolyamban. Ám akkor is kutatott kutyát ábrázoló pixelek után, amikor csak ugatást "hallott". Sőt az algoritmus nemcsak két, egymástól független hang-kép párosítást azonosított, hanem azokat keresztbe is tudta kombinálni: azaz például a kutyaugatást összekapcsolta a 'dog' hangcsoporttal és a kutya képével, vagy viszont, a képet mindkét hangcsoporttal és így tovább.

A kutatócsoport szerint a DenseAV sokkal árnyaltabban tudja megragadni hang és kép kapcsolatát, mint a korábbi hasonló algoritmusok. Azok ugyanis általában egy fogalomra szűkítik a kapcsolatot: "a kutya leült a fűre" mondatot például csupán egy kutya képével kapcsolják össze. A DenseAV ezzel szemben a mondat teljes jelentéstartományát fel tudja térképezni, azaz felismeri a fű, illetve az azzal valamilyen térbeli viszonyban lévő kutya közötti kapcsolatot is.

Segíthet a természet mélyebb megértésében

A módszer közelebb vihet a fejlett, videoforrásból táplálkozó öntanuló rendszerek fejlesztéséhez. De talán ennél is izgalmasabb, hogy ha megfelelő mennyiségű forrás áll rendelkezésre, képesek leszünk dekódolni az állatok kommunikációját, például a delfinek, a bálnák vagy épp az elefántok "beszédét". Sőt, egy ilyen rendszerrel fel lehetne térképezni más, akár a kommunikációtól teljesen eltérő jelrendszerek "használati" szabályait is. Hamilton szerint egy ilyen modell közelebb vihet bennünket a Föld szeizmikus hangjai és a geológiai jelenségek közötti összefüggések megértéséhez.

A Hamiltonék csapata állítja, a DenseAV pontosabban azonosít képi és hanginformáció alapján bármely csúcsmodellnél. David Harwath, az austini Texasi Egyetem oktatója szerint a modell egyik legfontosabb újdonsága, hogy nincsenek feltevései a beszélt nyelvre vonatkozóan, ezért elvileg bármilyen nyelvű adatokból tanulhat.

Bővebb részletek a kutatásról a MIT CSAIL oldalán. »

Piaci hírek

Szemüveg-csuklópánt kombóval irtja a dzsungelt a Meta a konzumer MI útjából

Mark Zuckerberg 799 dolláros mesterségesintelligencia-szemüveget és egy olyan csuklópántot is bemutatott, ami hozzá csatlakoztatva érzékeli a finom kézmozdulatokkal adott utasításokat, és szerinte nyugdíjba küldi majd a billentyűzeteket, az egereket, sőt az érintőképernyőket is.
 
Hirdetés

A kifizetett energia
60%-a elvész, de egy audit feltárja, hol folyik el a pénzünk

A Schneider Electric energiahatékonysági szolgáltatása átfogó megoldást kínál, amely támogatja a cégek energiahatékonyság-növelési programjaik megvalósításában, az iparágban vezető megoldások, szolgáltatások és szakértők segítségével.

A vállalati IT-rendszerek egyik legnagyobb kihívása ma már nem a hardver beszerzése vagy a szoftverek integrációja, hanem az üzemeltetés. A modern storage-megoldások válasza erre az automatizáció és a menedzsment egyszerűsítése.

a melléklet támogatója az EURO ONE

Hirdetés

Hatékony adattárolás, biztonságosabb működés: HPE storage az EURO ONE szakértelmével

Az adatmennyiség rohamos növekedése, a kritikus üzleti alkalmazások rendelkezésre állási követelményei és a kiberbiztonsági fenyegetések mind olyan tényezők, amelyek túlmutatnak a hagyományos storage-megoldások képességein.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.