A szövegfelismerés a mesterséges intelligencia gyorsan fejlődő területe, melynek kézenfekvő alkalmazása a különböző nyelveket beszélő emberek közötti kommunikáció elősegítése, de számos más területen is hasznosnak bizonyul, mint amilyen mondjuk a megosztott dokumentumok és a hang alapú beszélgetések közvetlen fordítása. Ebbe a sorba illeszkedik a Meta Platforms MI-kutató részlegének (Meta AI) szerdai bejelentése, amely szerint elindították univerzális beszédfordító (universal speech translator, UST) projektjüket, megcélozva a valós idejű, tisztán hangalapú fordítást még az olyan nyelvek között is, amelyek nem igazán hozzáférhetőek írott formában.
A Meta vezérigazgatója, Mark Zuckerberg azt is közölte, hogy megnyitják a maga nemében még egyedülálló megoldás forrását, hogy azt minél több felhasználó vehesse igénybe minél több nyelv esetében. A Meta szerint az UST az első olyan, mesterséges intelligenciára épülő beszédfordító rendszer, amelyik megbirkózik például a hokkien nyelvvel, a Tajvanon, Kína délkeleti részén és az ázsaiai kínai diaszpórában is beszélt min egyik dialektusával. Bár a nyelvet több tízmillióan értik és beszélik, a valós idejű gépi feldolgozása nem könnyű feladat, mert ellentétben mondjuk az írásban is gyakran használt mandarin nyelvvel, a hokkien túlnyomórészt verbális.
A modell fejlesztői azonban a Meta közlése szerint megoldották, hogy a hokkient használók zökkenőmentesen beszéljenek az angol nyelvet használókkal, amit jelentős mérföldkőnek tartanak a globális nyelvi akadályok lebontásában. A Meta szerint a mai MI-alapú fordítási modellek a széles körben beszélt írott nyelvekre összpontosítanak, és nem fedik le az elsősorban szóban élő nyelvek több mint 40 százalékát. Az UST projekt a Meta AI-nak azokra az egyetemes beszéd-beszéd fordítási kutatásaira épít, amelyek az ilyen, értelemszerűen az interneten sem gyakori nyelveket érintik, és három kritikus, a fordítórendszerek előtt álló kihívás leküzdésére koncentrál.
Az első az adathiány, amit nem csak adatgyűjtéssel, de új módszerek alkalmazásával igyekeznek kezelni a már rendelkezésre álló adatok hasznosításában. A modellezésben további kihívásokat jelent az is, hogy egyre több nyelvet kell párhuzamosan kiszolgálni, ezen felül hatékonyabbá kell tenni az eredmények értékelését és javítását. A projekt során kutatják a nagy, címkézetlen beszédadatkészletekből való automatikus adatbányászatot az úgynevezett pszeudocímkézés alkalmazását is a gyengén ellenőrzött adatkészletek előállításánál. A hokkien feldolgozása esettanulmányként szolgál egy új, végpontok közötti megoldáshoz a képzési adatgyűjtéstől és a modellezési lehetőségektől az adatkészletek benchmarkolásáig.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak