Az AWS kutatói szerint az online elérhető szövegek nagyobbik részét géppel és hibásan fordítják le egy vagy több nyelvre, ami több szempontból is súlyos következményekkel fenyeget.

Az Amazon Web Services (AWS) mesterségesintelligencia-kutatói szerint az internetet teljesen elárasztotta a gépi fordítással gyártott, rossz minőségű tartalom: nemrég közölt kutatásuk értelmében az online térben található összes mondat több mint 57 százalékát két vagy több nyelvre is átültették, a fordítások megdöbbentő mennyisége azok alacsony színvonalával együtt pedig arra utal, hogy elsősorban nagy nyelvi modelleket (large language model, LLM) használták az anyagok elkészítéséhez. A jelenség különösen szembetűnő azokon az Afrikában és a globális Dél országaiban beszélt nyelveken, amelyeken kevesebb nívós tartalom áll rendelkezésre az MI-modellek képzéséhez.

Az AWS egyik munkatársa a Vice-Motherboard kérdésére elmondta: azért kezdtek foglalkozni a témával, mert az utóbbi nyelveket anyanyelvként beszélő kollégáik szerint az ilyen anyagok nagy része láthatóan gépi fordítás (machine translation, MT) eredménye. Egy 6,38 milliárd mondatból álló korpusz vizsgálata során arra jutottak, hogy az internet nagy részét tényleg lefordítják, a minőség pedig minimum hullámzó. A legtöbb anyag az online térben több erőforrást felvonultató nyelveken rendelkezik párhuzamos adatokkal, tehát valószínűbb, hogy a mondatokat például franciára fordítják, mint mondjuk xhosza vagy volof nyelvekre, és utóbbiak lényegesen gyengébbre is sikerülnek.

Figyelmeztetésekből nincs hiány

Ugyancsak megfigyelték, hogy minél több nyelvre fordítanak le egy mondatot, annál igénytelenebbek lesznek a fordítások, ami a MT technológia gyors terjedésére utal. A minta torzulást mutat az 5-10 szavas, rövidebb és könnyebben "megjósolható" mondatok irányában, melyek túlnyomó többsége idétlen témákról írt, erőfeszítéset vagy szakértelmet nem igénylő (feltehetően angol eredetivel rendelkező) cikkekből származott. Az érintett nyelveket innentől még nehezebb lesz feldolgozni az internetről szerzett anyagokon keresztül: az MI-modellek egyre alacsonyabb teljesítményűek lesznek a szöveg folyákonyságát és pontosságát tekintve, ezen felül hajlamosabbá válnak a hallucinációra is.

Tavaly nyáron mi is beszámoltunk a Rest of World és a W3Techs online kutatásáról, ami az angol, a német vagy a japán nyelvet sokkal gyakoribbnak találta az interneten, mint azt az anyanyelvi beszélők száma indokolta volna. A kínai és a hindi ezzel szemben a vizsgált publikus domainek 1,4, illetve 0,07 százalékát adta, miközben százmilliók által beszélt nyelvek (bengáli, urdu) gyakorlatilag nem is léteznek a világhálón. A lap az UNESCO 2003-as előrejelzését is idézi, ami már akkor arra figyelmeztetett, hogy az internet bővülésével egyre nő a beszélt és az online használt nyelvek közti szakadék, és belátható időn belül eljutunk oda, hogy csak néhánynak lesz érdemi jelenléte a világhálón.

Közösség & HR

Már a rajtnál megmakkant Donald Trump kriptoüzlete

Korábban 300 millió dollárra számítottak a World Liberty Financial (WLFI) tokenek eladásából, első körben 12 millió jött össze belőle.
 
Hirdetés

ITSM a gyakorlatban

Három fájdalompont, amire az IT szolgáltatásmenedzsment gyors válaszokat adhat.

Ezt már akkor sokan állították, amikor a Watson vagy a DeepMind még legfeljebb érdekes játék volt, mert jó volt kvízben, sakkban vagy góban.

a melléklet támogatója a Clico Hungary

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.