Egyelőre nem lesz a mesterséges intelligenciából Dr. Dolittle, de a kísérletek közelebb vihetnek bennünket a természet mélyebb megértéséhez.

Nemrégiben gépi tanulási támogatással fedezték fel, hogy az elefántok néven nevezik egymást. A MIT (Massachusetts Institute of Technology) mesterséges intelligencia laborjának munkatársai (Computer Science & Artificial Intelligence Laboratory, CSAIL) viszont azt is ki akarják deríteni, hogy mit mondanak egymásnak.

Egy kutatócsapat olyan mesterséges intelligencia modellen dolgozik, ami többek között az állatok kommunikációjának megértésében segíthet. Ehhez olyan rendszert építettek, amely képes egyedül – végső soron a semmiből – csupán hangos videókat nézve elsajátítani egy nyelvet.

Az ötlet nagyon leegyszerűsítve az volt, hogy ha megfelelő mennyiségű hang- és képinformációt biztosítanak egy algoritmusnak, abból az előbb-utóbb képes lesz összekapcsolni a hangot a képpel (jel-jelölt), sőt az adott nyelv használati szabályait is absztrahálja. Végső soron a gyerekek is így tanulnak, figyelik a környezetüket, és hallgatják a körülöttük folyó beszédet.

Fejlesztettek egy DenseAV nevű algoritmust, aminek egyetlen célja: nyelvet tanulni videók segítségével, azaz egy képi információ előhívhassa (megjósolhassa) az azt jelző hangcsoportot, és fordítva, a hangcsoport előhívhassa a jelölt képet. Ha például a videóban azt mondták 'süssük meg a süteményt 350 fokon', akkor az algoritmus ismerje fel, hogy a képernyőn egy sütemény vagy egy sütő van, példálózott a kutatócsoport egyik tagja, Mark Hamilton a MIT CSAIL online oldalára készített beszámolóban (a kutató által emlegetett 350 fok természetesen Fahrenheitben értendő). Ennek a szintnek az eléréséhez persze több millió videó megnézésén át vezet az út.

Ha elhangzott egy videóban a 'dog' szó, a DenseAV elkezdett kutyákat keresni a videofolyamban. Ám akkor is kutatott kutyát ábrázoló pixelek után, amikor csak ugatást "hallott". Sőt az algoritmus nemcsak két, egymástól független hang-kép párosítást azonosított, hanem azokat keresztbe is tudta kombinálni: azaz például a kutyaugatást összekapcsolta a 'dog' hangcsoporttal és a kutya képével, vagy viszont, a képet mindkét hangcsoporttal és így tovább.

A kutatócsoport szerint a DenseAV sokkal árnyaltabban tudja megragadni hang és kép kapcsolatát, mint a korábbi hasonló algoritmusok. Azok ugyanis általában egy fogalomra szűkítik a kapcsolatot: "a kutya leült a fűre" mondatot például csupán egy kutya képével kapcsolják össze. A DenseAV ezzel szemben a mondat teljes jelentéstartományát fel tudja térképezni, azaz felismeri a fű, illetve az azzal valamilyen térbeli viszonyban lévő kutya közötti kapcsolatot is.

Segíthet a természet mélyebb megértésében

A módszer közelebb vihet a fejlett, videoforrásból táplálkozó öntanuló rendszerek fejlesztéséhez. De talán ennél is izgalmasabb, hogy ha megfelelő mennyiségű forrás áll rendelkezésre, képesek leszünk dekódolni az állatok kommunikációját, például a delfinek, a bálnák vagy épp az elefántok "beszédét". Sőt, egy ilyen rendszerrel fel lehetne térképezni más, akár a kommunikációtól teljesen eltérő jelrendszerek "használati" szabályait is. Hamilton szerint egy ilyen modell közelebb vihet bennünket a Föld szeizmikus hangjai és a geológiai jelenségek közötti összefüggések megértéséhez.

A Hamiltonék csapata állítja, a DenseAV pontosabban azonosít képi és hanginformáció alapján bármely csúcsmodellnél. David Harwath, az austini Texasi Egyetem oktatója szerint a modell egyik legfontosabb újdonsága, hogy nincsenek feltevései a beszélt nyelvre vonatkozóan, ezért elvileg bármilyen nyelvű adatokból tanulhat.

Bővebb részletek a kutatásról a MIT CSAIL oldalán. »

Piaci hírek

Néha kiderül, hogy mit gondolnak rólunk valójában az MI-forradalom hadvezérei

Az OpenAI szuper felkészült technológiai vezetője szerint nem is kár azokért a munkahelyekért, amelyeket megszüntetnek a mesterséges intelligencia miatt.
 
Bejelentési kötelezettségük elmulasztása, és a szabályoknak való sorozatos meg nem felelés komoly pénzbírságot vonhat maga után.
Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.