Az AWS kutatói szerint az online elérhető szövegek nagyobbik részét géppel és hibásan fordítják le egy vagy több nyelvre, ami több szempontból is súlyos következményekkel fenyeget.
Hirdetés
 

Az Amazon Web Services (AWS) mesterségesintelligencia-kutatói szerint az internetet teljesen elárasztotta a gépi fordítással gyártott, rossz minőségű tartalom: nemrég közölt kutatásuk értelmében az online térben található összes mondat több mint 57 százalékát két vagy több nyelvre is átültették, a fordítások megdöbbentő mennyisége azok alacsony színvonalával együtt pedig arra utal, hogy elsősorban nagy nyelvi modelleket (large language model, LLM) használták az anyagok elkészítéséhez. A jelenség különösen szembetűnő azokon az Afrikában és a globális Dél országaiban beszélt nyelveken, amelyeken kevesebb nívós tartalom áll rendelkezésre az MI-modellek képzéséhez.

Az AWS egyik munkatársa a Vice-Motherboard kérdésére elmondta: azért kezdtek foglalkozni a témával, mert az utóbbi nyelveket anyanyelvként beszélő kollégáik szerint az ilyen anyagok nagy része láthatóan gépi fordítás (machine translation, MT) eredménye. Egy 6,38 milliárd mondatból álló korpusz vizsgálata során arra jutottak, hogy az internet nagy részét tényleg lefordítják, a minőség pedig minimum hullámzó. A legtöbb anyag az online térben több erőforrást felvonultató nyelveken rendelkezik párhuzamos adatokkal, tehát valószínűbb, hogy a mondatokat például franciára fordítják, mint mondjuk xhosza vagy volof nyelvekre, és utóbbiak lényegesen gyengébbre is sikerülnek.

Figyelmeztetésekből nincs hiány

Ugyancsak megfigyelték, hogy minél több nyelvre fordítanak le egy mondatot, annál igénytelenebbek lesznek a fordítások, ami a MT technológia gyors terjedésére utal. A minta torzulást mutat az 5-10 szavas, rövidebb és könnyebben "megjósolható" mondatok irányában, melyek túlnyomó többsége idétlen témákról írt, erőfeszítéset vagy szakértelmet nem igénylő (feltehetően angol eredetivel rendelkező) cikkekből származott. Az érintett nyelveket innentől még nehezebb lesz feldolgozni az internetről szerzett anyagokon keresztül: az MI-modellek egyre alacsonyabb teljesítményűek lesznek a szöveg folyákonyságát és pontosságát tekintve, ezen felül hajlamosabbá válnak a hallucinációra is.

Tavaly nyáron mi is beszámoltunk a Rest of World és a W3Techs online kutatásáról, ami az angol, a német vagy a japán nyelvet sokkal gyakoribbnak találta az interneten, mint azt az anyanyelvi beszélők száma indokolta volna. A kínai és a hindi ezzel szemben a vizsgált publikus domainek 1,4, illetve 0,07 százalékát adta, miközben százmilliók által beszélt nyelvek (bengáli, urdu) gyakorlatilag nem is léteznek a világhálón. A lap az UNESCO 2003-as előrejelzését is idézi, ami már akkor arra figyelmeztetett, hogy az internet bővülésével egyre nő a beszélt és az online használt nyelvek közti szakadék, és belátható időn belül eljutunk oda, hogy csak néhánynak lesz érdemi jelenléte a világhálón.

Közösség & HR

Borús a hazai vezérigazgatók hangulata, akik még az MI-ben sem hisznek

A PwC 15. alkalommal kérdezte meg a magyarországi nagyvállalatok vezetőit aktuális és távlati terveikről. A válaszok alapján történelmi mélyponton vannak a bevételi várakozások, miközben növekvő bizonytalanság uralja a vezetői gondolkodást.
 
Márciusi mellékletünk első részében áttekintjük, milyen nagy utat tettünk meg az egy feladat – egy fizikai szerver koncepciótól a mai, "szanaszét virtualizált" világig.

a melléklet támogatója az EURO ONE

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!

Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.

2026.03.10. UP Rendezvénytér

RÉSZLETEK »

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.