Bár más cégek NL algoritmusait is felhasználják, új szintre emelhetik a videók szinkronizálását és magát a természetesnyelv-feldolgozást is.
Hirdetés
 

Manapság húszmillió dolláros befektetésért nem fut össze a fél világ. A brit Papercupra mégis sokan felfigyeltek, amikor nemrégiben összesen 20 millió dollár "angyalpénzt" dobtak össze befektetők a fejlesztéseire. A Octopus Ventures vezetése mellett beszállt többek között a Local Globe, a Sands Capital, a Guardian Media Ventures, de olyanok is láttak fantáziát a cégben, mint Zoubin Ghahramani, a Google Brain kutatási főigazgatója.

Pedig Papercupra látszólag nem valami merész újdonságon dolgozik: mesterséges intelligenciával (MI) működő szinkronizálási szolgáltatást fejleszt. Na de mi ebben az újdonság, kérdezhetné valaki? A Microsoft a Skype-pal már nyolc éve megmutatta, hogy ez megoldható, de még a Webexben is elérhető a feliratos fordítást. A Papercup sokkal ambiciózusabb: nem csak a szöveg elsődleges értelmét akarja lefordítani, hanem a jelentést módosító hangsúlyokat, intonációt stb. is, amit szintetikus hangból elő is állítana a célnyelven.

A szolgáltatás valahogy úgy nézne ki a VentureBeat leírása szerint, hogy az ügyfél feltölt egy videókat, kiválasztja a célnyelvet, és visszakapja a szinkronizált változatot. A Sky News, a Discovery és a Business Insider már próbálkozott is a technológiával, állítólag tavaly már több mint 300 millióan néztek meg olyan videót, amit a Papercup szinkronizált.

A szinkronizálás egy viszonylag nagy piac. A VentureBeat idézi a Markets and Markets előrejelzését, amely szerint 2028-ra globálisan másfélszeresére nő ez a piaci szegmens (2021-ben 3,1 milliárd dollár volt, 2028-ban eléri a 4,7 milliárdot). Ezt a munkát ma fordítók, színészek végzik drága stúdiókban, nagy műszaki stábbal.

A Papercup módszerével a jelenlegi költségek ötödéért is jó eredményt lehet elérni, ami nem  igazán a filmiparra lesz hatással, hanem a játék, podcastok, vállalati tréningek és hangoskönyvek piacára.

Nem triviális probléma

A szöveg szinkronizálásának problémája messze túlmutat a szövegfordításon. A startup vezetője, Jesse Shemen azt mondta a VentureBeatnek, hogy elég sok akadályon kellett átverekedniük magukat, hogy eljussanak a valószerű, kifejező szinkronhang előállításáig. Nehéz volt jó minőségű képzési adatokhoz jutni. Magának a fordítási folyamatnak az automatizálása sem volt egyszerű, de az egyik legnehezebb feladatnak a szintetikus beszéd kifejezőerejének megteremtése volt.

A képzéshez végül egy olyan adatkészletet használtak, amelyet részben külső cég készletéből és saját képzési adataikból mixeltek. Ebből hoztak létre egy átfogó képzési adatkatalógust különböző nyelvekre és azokon belül különböző demográfiai csoportokra. A folyamat automatizálását csak részben tudták megoldani. Be kellett iktatni az emberi kontrollt, azaz az ún. human-in-the-loop folyamatmodellt használták. A folyamatba beépítettek profi fordítókat, akik ellenőrizik és szükség esetén javítják a gépi fordítás pontosságát, melynek során megpróbálják átültetni a célnyelvre az eredeti nyelv árnyalatait. Folyamatosan visszajelzéseket adnak a rendszernek arról is, hogy a generált hangok mennyire jó minőségűek és természetesen hangzanak-e.

A hangból más cégek MI-motorjával készítenek szöveget (speech-to-text ), azon történik a gépi fordítás, majd jön a Papercup rendszere, amely előállítja a szinkronhangot. A profi fordító fontos a rendszerben, a cégvezető szerint jelenleg ez a leghatékonyabb módja a rendelkezésre álló MI-technológiák használatának.

Az ügyfelek egyébként egyszerű választós módszerrel használhatják a rendszert. Feltöltheti a videót, kiválasztja a kimeneti nyelvet (ez egyelőre korlátozott: angol, mandarin, olasz, latin-amerikai spanyol, brazil portugál), kiválaszthatja a szintetizált hangot (nem és kor alapján), módosíthatja a hang magasságát, karakterét, érzelmi töltetét (pl. boldog, szomorú, dühös stb.). A többi már a rendszer – és a profi fordító meósok (ha valaki nem ismerné: meó = minőségellenőrzési osztály) dolga.

A fejlesztés hatása egyelőre megjósolhatatlan. Mint a neves MI-kutató, Andrew Ng írja, az automatizálás a szűk költségvetésből élő tartalomgyártók számára is elérhetővé teheti a videós tartalmaik "honosítását", amivel új piacokra törhetnek be. A másik oldalról viszont elveszi előadóművészek egy fontos bevételi forrását.

Cloud & big data

Így lesz drágább a mesterséges intelligencia, mint az emberi munkaerő

Egyes vállalatok már most is többet költenek az MI-ügynökökre, mint a technológiát használó alkalmazottaik fizetésére, miközben a megtérülés nem mindenhol és nem minden szempontból tűnik egyértelműnek.
 
Hirdetés

A jövőálló digitális megoldások sikere az üzleti értékteremtésben mérhető

Az informatikai fejlesztések gyakran technológiai kérdésként jelennek meg, pedig egy kódsor vagy digitális megoldás önmagában soha nem lehet végcél. A 4D Soft több mint 35 éve ennek szellemében fókuszál a projektek negyedik dimenziójára: az üzleti értékteremtésre.

A biztonság ’balra tolódása’ az alkalmazásfejlesztésben nem csak technikai kérdés. A DevSecOps-elvek érvényesüléséhez az IT-szervezet működését és más területekhez való viszonyát is újra kell szabni.

a melléklet támogatója a Clico

Hirdetés

A hibakeresés nem egyenlő az alkalmazásbiztonsággal

Építsünk olyan AppSec környezetet, amely csökkenti az alkalmazásfejlesztés kockázatait, de nem válik a gyors leszállítás akadályává!

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.