Az AWS kutatói szerint az online elérhető szövegek nagyobbik részét géppel és hibásan fordítják le egy vagy több nyelvre, ami több szempontból is súlyos következményekkel fenyeget.

Az Amazon Web Services (AWS) mesterségesintelligencia-kutatói szerint az internetet teljesen elárasztotta a gépi fordítással gyártott, rossz minőségű tartalom: nemrég közölt kutatásuk értelmében az online térben található összes mondat több mint 57 százalékát két vagy több nyelvre is átültették, a fordítások megdöbbentő mennyisége azok alacsony színvonalával együtt pedig arra utal, hogy elsősorban nagy nyelvi modelleket (large language model, LLM) használták az anyagok elkészítéséhez. A jelenség különösen szembetűnő azokon az Afrikában és a globális Dél országaiban beszélt nyelveken, amelyeken kevesebb nívós tartalom áll rendelkezésre az MI-modellek képzéséhez.

Az AWS egyik munkatársa a Vice-Motherboard kérdésére elmondta: azért kezdtek foglalkozni a témával, mert az utóbbi nyelveket anyanyelvként beszélő kollégáik szerint az ilyen anyagok nagy része láthatóan gépi fordítás (machine translation, MT) eredménye. Egy 6,38 milliárd mondatból álló korpusz vizsgálata során arra jutottak, hogy az internet nagy részét tényleg lefordítják, a minőség pedig minimum hullámzó. A legtöbb anyag az online térben több erőforrást felvonultató nyelveken rendelkezik párhuzamos adatokkal, tehát valószínűbb, hogy a mondatokat például franciára fordítják, mint mondjuk xhosza vagy volof nyelvekre, és utóbbiak lényegesen gyengébbre is sikerülnek.

Figyelmeztetésekből nincs hiány

Ugyancsak megfigyelték, hogy minél több nyelvre fordítanak le egy mondatot, annál igénytelenebbek lesznek a fordítások, ami a MT technológia gyors terjedésére utal. A minta torzulást mutat az 5-10 szavas, rövidebb és könnyebben "megjósolható" mondatok irányában, melyek túlnyomó többsége idétlen témákról írt, erőfeszítéset vagy szakértelmet nem igénylő (feltehetően angol eredetivel rendelkező) cikkekből származott. Az érintett nyelveket innentől még nehezebb lesz feldolgozni az internetről szerzett anyagokon keresztül: az MI-modellek egyre alacsonyabb teljesítményűek lesznek a szöveg folyákonyságát és pontosságát tekintve, ezen felül hajlamosabbá válnak a hallucinációra is.

Tavaly nyáron mi is beszámoltunk a Rest of World és a W3Techs online kutatásáról, ami az angol, a német vagy a japán nyelvet sokkal gyakoribbnak találta az interneten, mint azt az anyanyelvi beszélők száma indokolta volna. A kínai és a hindi ezzel szemben a vizsgált publikus domainek 1,4, illetve 0,07 százalékát adta, miközben százmilliók által beszélt nyelvek (bengáli, urdu) gyakorlatilag nem is léteznek a világhálón. A lap az UNESCO 2003-as előrejelzését is idézi, ami már akkor arra figyelmeztetett, hogy az internet bővülésével egyre nő a beszélt és az online használt nyelvek közti szakadék, és belátható időn belül eljutunk oda, hogy csak néhánynak lesz érdemi jelenléte a világhálón.

Közösség & HR

Tudja, melyik cég gyártja a legtöbb ipari robotot?

Az Amazon szerint ők. A világ egyik legnagyobb online kereskedője folyamatai optimalizálására leginkább házon belüli fejlesztésekre támaszkodik.
 
Vészesen közelít a június vége, ameddig minden érintettnek el kell indítania a NIS2 alkalmazásba vételét. Az idén és jövőre is számos teendőt kell elvégezni, mutatjuk a pontos menetrendet.

a melléklet támogatója a Balasys IT Zrt.

Hirdetés

Biztonságos M2M kommunikáció nagyvállalti környezetben a Balasystól

A megnövekedett támadások miatt az API-k biztonsága erősen szabályozott és folyamatosan auditált terület, amelynek védelme a gépi kommunikáció (M2M) biztonságossá tételén múlik.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.