A világháló nagy része ma már gépi fordítással gyártott szemét

Bitport2024.01.23.Közösség & HR

Az AWS kutatói szerint az online elérhető szövegek nagyobbik részét géppel és hibásan fordítják le egy vagy több nyelvre, ami több szempontból is súlyos következményekkel fenyeget.

Az Amazon Web Services (AWS) mesterségesintelligencia-kutatói szerint az internetet teljesen elárasztotta a gépi fordítással gyártott, rossz minőségű tartalom: nemrég közölt kutatásuk értelmében az online térben található összes mondat több mint 57 százalékát két vagy több nyelvre is átültették, a fordítások megdöbbentő mennyisége azok alacsony színvonalával együtt pedig arra utal, hogy elsősorban nagy nyelvi modelleket (large language model, LLM) használták az anyagok elkészítéséhez. A jelenség különösen szembetűnő azokon az Afrikában és a globális Dél országaiban beszélt nyelveken, amelyeken kevesebb nívós tartalom áll rendelkezésre az MI-modellek képzéséhez.

Az AWS egyik munkatársa a Vice-Motherboard kérdésére elmondta: azért kezdtek foglalkozni a témával, mert az utóbbi nyelveket anyanyelvként beszélő kollégáik szerint az ilyen anyagok nagy része láthatóan gépi fordítás (machine translation, MT) eredménye. Egy 6,38 milliárd mondatból álló korpusz vizsgálata során arra jutottak, hogy az internet nagy részét tényleg lefordítják, a minőség pedig minimum hullámzó. A legtöbb anyag az online térben több erőforrást felvonultató nyelveken rendelkezik párhuzamos adatokkal, tehát valószínűbb, hogy a mondatokat például franciára fordítják, mint mondjuk xhosza vagy volof nyelvekre, és utóbbiak lényegesen gyengébbre is sikerülnek.

Figyelmeztetésekből nincs hiány

Ugyancsak megfigyelték, hogy minél több nyelvre fordítanak le egy mondatot, annál igénytelenebbek lesznek a fordítások, ami a MT technológia gyors terjedésére utal. A minta torzulást mutat az 5-10 szavas, rövidebb és könnyebben "megjósolható" mondatok irányában, melyek túlnyomó többsége idétlen témákról írt, erőfeszítéset vagy szakértelmet nem igénylő (feltehetően angol eredetivel rendelkező) cikkekből származott. Az érintett nyelveket innentől még nehezebb lesz feldolgozni az internetről szerzett anyagokon keresztül: az MI-modellek egyre alacsonyabb teljesítményűek lesznek a szöveg folyákonyságát és pontosságát tekintve, ezen felül hajlamosabbá válnak a hallucinációra is.

Tavaly nyáron mi is beszámoltunk a Rest of World és a W3Techs online kutatásáról, ami az angol, a német vagy a japán nyelvet sokkal gyakoribbnak találta az interneten, mint azt az anyanyelvi beszélők száma indokolta volna. A kínai és a hindi ezzel szemben a vizsgált publikus domainek 1,4, illetve 0,07 százalékát adta, miközben százmilliók által beszélt nyelvek (bengáli, urdu) gyakorlatilag nem is léteznek a világhálón. A lap az UNESCO 2003-as előrejelzését is idézi, ami már akkor arra figyelmeztetett, hogy az internet bővülésével egyre nő a beszélt és az online használt nyelvek közti szakadék, és belátható időn belül eljutunk oda, hogy csak néhánynak lesz érdemi jelenléte a világhálón.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Közösség & HR

Hamarosan nyílik az első teljesen robotizált hotel

Az egyedülállóként beharangozott kezdeményezés Kínában valósul meg. Az egyetlen emberi alkalmazott nélkül folyamatosan működő 44 szobás szálloda részlegesen már idén kinyithat Sencsenben.

A hónap témája

Hogyan vezessük be az MI-t szolgáltatásként?

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Hamarosan nyílik az első teljesen robotizált hotel

Hogyan vezessük be az MI-t szolgáltatásként?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!