Az írott formában nem használt nyelveket is megfejtenék a Meta tudósai

Bitport2022.10.21.Cloud & big data

A Facebook anyacégénél kifejlesztettek egy MI-alapú beszéd-beszéd fordítórendszert a hokkienhez, egy elsősorban szóbeli kínai nyelvjáráshoz, amit esettanulmányként használnának az univerzális beszédfordító megalkotásához.

A szövegfelismerés a mesterséges intelligencia gyorsan fejlődő területe, melynek kézenfekvő alkalmazása a különböző nyelveket beszélő emberek közötti kommunikáció elősegítése, de számos más területen is hasznosnak bizonyul, mint amilyen mondjuk a megosztott dokumentumok és a hang alapú beszélgetések közvetlen fordítása. Ebbe a sorba illeszkedik a Meta Platforms MI-kutató részlegének (Meta AI) szerdai bejelentése, amely szerint elindították univerzális beszédfordító (universal speech translator, UST) projektjüket, megcélozva a valós idejű, tisztán hangalapú fordítást még az olyan nyelvek között is, amelyek nem igazán hozzáférhetőek írott formában.

A Meta vezérigazgatója, Mark Zuckerberg azt is közölte, hogy megnyitják a maga nemében még egyedülálló megoldás forrását, hogy azt minél több felhasználó vehesse igénybe minél több nyelv esetében. A Meta szerint az UST az első olyan, mesterséges intelligenciára épülő beszédfordító rendszer, amelyik megbirkózik például a hokkien nyelvvel, a Tajvanon, Kína délkeleti részén és az ázsaiai kínai diaszpórában is beszélt min egyik dialektusával. Bár a nyelvet több tízmillióan értik és beszélik, a valós idejű gépi feldolgozása nem könnyű feladat, mert ellentétben mondjuk az írásban is gyakran használt mandarin nyelvvel, a hokkien túlnyomórészt verbális.

A modell fejlesztői azonban a Meta közlése szerint megoldották, hogy a hokkient használók zökkenőmentesen beszéljenek az angol nyelvet használókkal, amit jelentős mérföldkőnek tartanak a globális nyelvi akadályok lebontásában. A Meta szerint a mai MI-alapú fordítási modellek a széles körben beszélt írott nyelvekre összpontosítanak, és nem fedik le az elsősorban szóban élő nyelvek több mint 40 százalékát. Az UST projekt a Meta AI-nak azokra az egyetemes beszéd-beszéd fordítási kutatásaira épít, amelyek az ilyen, értelemszerűen az interneten sem gyakori nyelveket érintik, és három kritikus, a fordítórendszerek előtt álló kihívás leküzdésére koncentrál.

Az első az adathiány, amit nem csak adatgyűjtéssel, de új módszerek alkalmazásával igyekeznek kezelni a már rendelkezésre álló adatok hasznosításában. A modellezésben további kihívásokat jelent az is, hogy egyre több nyelvet kell párhuzamosan kiszolgálni, ezen felül hatékonyabbá kell tenni az eredmények értékelését és javítását. A projekt során kutatják a nagy, címkézetlen beszédadatkészletekből való automatikus adatbányászatot az úgynevezett pszeudocímkézés alkalmazását is a gyengén ellenőrzött adatkészletek előállításánál. A hokkien feldolgozása esettanulmányként szolgál egy új, végpontok közötti megoldáshoz a képzési adatgyűjtéstől és a modellezési lehetőségektől az adatkészletek benchmarkolásáig.

A fejlesztés részletei a Meta bejelentésében »

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

A kisebb hazai gyártóvállalatok elengedhetetlennek tartják a digitalizációt

Egy friss kutatás szerint az üzleti siker és a technológiai fejlődés csereszabatos kifejezésként élnek a kisebb gyártó vállalkozásokat irányító vezetők fejében.

Hirdetés

Így újult meg Magyarország leggyorsabb mobilhálózata

Közel 100 milliárd forintos beruházással, a rádiós és maghálózat teljes modernizációjával zárult le a Yettel történetének egyik legnagyobb műszaki fejlesztése.

A hónap témája

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

A kompromittált rendszerek, a dark weben felbukkanó ügyféladatok vagy a zsarolóvírus-kampányok következményei már a vezérigazgatói és pénzügyi igazgatói irodában csapódnak le – jogi, reputációs és üzleti szinten is. Lehet és kell is védekezni ellene.

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

A kisebb hazai gyártóvállalatok elengedhetetlennek tartják a digitalizációt

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia