A Microsoft szakemberei egyetemi kutatókkal együtt dolgoznak rajta, hogy a mesterséges intelligencia képessé váljon videók és azokhoz kapcsolódó szövegek párhuzamos értelmezésére, az értelmezések indoklására és az ellentmondások azonosítására is.

A képi és nyelvi információ interferenciája az MI-kutatás egyik érdekes vonatkozása, amellyel összefüggésben a napokban tettek közzé egy érdekes anyagot a Carnegie Mellon Egyetem, a Kaliforniai Egyetem (Santa Barbara) és a Microsoft Dynamics 365 AI munkatársai. A dokumentumban felvetett probléma egy videó, a videó feliratainak és a mindehhez rendelt szöveges anyagok párhuzamos feldolgozása, és annak megállapítása, hogy a kettő megerősíti egymást, vagy éppen elentmond a másiknak. Ehhez most a szakemberek egy olyan, Violin néven hivatkozott összetett adatkészletet tettek közzé, amely reményeik szerint hozzájárulhat az ilyen vonatkozású eszközök képességeinek fejlesztéséhez.

A Violin filmrészleteket tartalmaz a hozzájuk tartozó igaz-hamis állításokkal. Ez utóbbiakat az Amazon Mechanical Turk crowdsourcing szolgáltatásán keresztül készítették el, ami kifejezetten a számítástechnikával vagy online tevékenységekkel kapcsolatos, de emberi munkát igénylő feladatok közvetítését teszi lehetővé. A tömeges hozzájárulásra nagy szükség volt, hogy összeállhasson a majdnem 16 ezer publikus videóval több mint 95 ezer páros állítást tartalmazó adatkészlet – ennek elemeit 30 másodperces filmrészletek és a hozzájuk rendelt pozitív vagy negatív állítások adják, legyen szó a szereplők azonosításáról, az eseményekről és azok indoklásáról vagy az elhangzó párbeszédekről.
 

forrás: arxiv.org


Annak érdekében, hogy kiküszöböljék az esetleges elfogultságból adódó problémákat, a kutatók arra kérték a résztvevőket, hogy negatív állítások helyett először mindig pozitív állításokat írjanak, amelyeket aztán egy kis részükben módosítsanak, hogy hamis megállapítások legyenek belőlük. Fontos, hogy ezek egyetlen esetben sem explicit információt tartalmaznak a videórészletekről (tárgyak, helyek, nevek vagy helyzetek), hanem összetettebb folyamatok értelmezését kívánják, mint az események lényege, az emberi érzelmek vagy kapcsolatok interpretációja, esetleg az események közötti ok-okozati összefüggések azonosítása.

Az együttes értelmezés nem két külön értelmezés párosítása

Az adatkészlet benchmarkolásához egy olyan mesterségesintelligencia-modellt használtak, amely képes felfedezni a hosszú távú összefüggéseket (bi-directional long short-term memory model, BDLST), és számértékekre fordítani a filmrészletek egyes elemeit, egy másik példány pedig ugyanezt tette az állításokkal vagy a feliratokkal. Egy harmadik modell, amelyet az adatkészlet 80 százalékának felhasználásával tanítottak be a validációra és tesztelére fenntartott10-10 százalék mellett, ezután meghatározta, hogy az állítások ellentmondanak-e a videók tartalmának és feliratainak.

A publikáció szerint a legjobb eredmény ebben a tekintetben közel 60 százalékos volt, amit első körben az emberi teljesítmény 85 százalék fölötti értékével érdemes összehasonlítani. A két arány között egyelőre jelentős szakadék tátong, amit a kutatók szerint a közösség aktívabb bevonásával és erősebb modellek létrehozásával lehet majd csökkenteni. A fejlesztések irányát olyasmiben határozzák meg, mint amilyen mondjuk a kulcsfontosságú képkockák azonosítása, vagy a filmek és a feliratok közötti kapcsolat pontossabb meghatározása, javítva a rendszerek indoklási képességét.

Az ilyen technológiák lehetséges felhasználásai között megemlítik, hogy mások mellett ilyesmire lenne szükség a megbeszélések átírásának automatizálásához. Ezekhez hozzájárulnak hasonló kutatások is: a Microsoft Research (Asia) és a Harbin Institute of Technology nemrég tette közzé egy olyan kutatás eredményeit, amely ugyancsak a mesterséges intelligenciára támaszkodva élőben képes a videókat feliratozni a kép-, hang- vagy akár a kommentekben felbukkanó anyagokra támaszkodva. A rendszer, amelynek kódbázisa a GitHubon keresztül elérhető, relevancia alapján rendeli egymáshoz a feldolgozandó kommenteket és videókat, ezen keresztül rögtön egységesen tanulva meg a különböző módokat keresztező értelmezéseket.

Cloud & big data

Hekkerek költöztek a lengyel ivóvízhálózatba

A lengyel belbiztonsági szervek több település vízellátási rendszerében találtak támadásra utaló nyomokat. Dokumentációk és hitelesítési adatok is kikerülhettek.
 
Hirdetés

Költségcsökkenésből finanszírozott modernizáció

A cloud-native alkalmazások megkövetelik az adatközpontok modernizációját, amihez a SUSE többek között a virtualizációs költségek csökkentésével szabadítana fel jelentős forrásokat.

Felhőalapú automatizációs modellek konkrét vállalati felhasználásban - hat folyamat, ahol már bizonyított az AIaaS és az RPAaaS.

a melléklet támogatója a ONE Solutions

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.