Az austini Texasi Egyetem kutatói a generatív mesterséges intelligencia segítségével alakítottak át hangfelvételeket utcaképekké: az erről közzétett tanulmányuk szerint sikerült igazolniuk, hogy az akusztikus környezet is elegendő utalást tartalmaz olyan vizuális elemekre, amelyekből jól felismerhető képeken ábrázolhatják a különböző helyeket. Az előállított képek pontossága pedig azt mutatja, hogy a gépek is képesek lehetnek reprodukálni azt a jelenséget, amikor az emberek összekapcsolják a környezet látással és hallással való észlelését.
A cikkben leírják az általuk fejlesztett MI-modell betanítását különféle városi és vidéki utcák hang- és képi adatainak felhasználásával, ami aztán "élénk vizuális megjelenítésekké" alakítja a hangfelvételeket. Az észak-amerikai, ázsiai és európai városokból származó YouTube-anyagokból 10 másodperces hangfelvétel- és állókép-párokat állítottak össze, majd emberi és gépi értékelésekkel hasonlították össze az MI-vel létrehozott képeket a valós fotókkal. Az eddigi eredmények a legerősebb korrelációt az égbolt és a zöldfelület arányában mutatták, de az emberi résztvevők így is átlagosan 80 százalékos pontossággal ismerték fel azokat a képeket, amelyek megfeleltek a források hangmintáinak.
Géppel fejtenék meg az egyedi hangulatot
A kutatás vezetője szerint hagyományosan emberi képesség, ha egy komplett jelenetet el tudunk képzelni kizárólag hangok alapján, de ezt a "környezetünkkel való mély érzékszervi kapcsolatot" a jelek szerint a nagy nyelvi modellekre épülő technikákkal is meg lehet közelíteni. Szerinte ez arra utal, hogy a mesterséges intelligencia többre képes a fizikai környezet puszta felismerésénél, és azt is segíthet megérteni, hogy a multiszenzoros tényezők hogyan járulnak hozzá a különböző helyekhez kapcsolódó szubjektív emberi tapasztalatokhoz.
Mint kiderült, az MI gyakran az épített objektumok távolságát vagy akár építészeti jegyeit is eltalálta, sőt pontosan visszaadta, hogy napsütéses, felhős vagy esetleg éjszakai fényviszonyok között rögzítették-e az anyagokat, például a közlekedési hangok vagy az éjszakai rovarok ciripelése alapján. A tudósok ezeken keresztül a mesterséges intelligencia térinformatikai használatát kutatják az emberek és a környezetük kölcsönhatásának tanulmányozásával: az egyetem közleményében felidéznek egy másik, a Nature-ben megjelent cikket is, amelyben a szerzők azt vizsgálták, hogy az MI milyen módon lehet képes a városi környezetek egyedi identitását adó jellemzők azonosítására.
a kép forrása: news.utexas.edu
Felhőbe vezető út hazai szakértelemmel
Robusztus műszaki háttér, korszerű technológia és a felhasználóbarát kezelhetőség. A Flex Cloudhoz nem kell nagy IT-csapat, csak egy elhatározás és pár kattintás.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak