Az AWS kutatói szerint az online elérhető szövegek nagyobbik részét géppel és hibásan fordítják le egy vagy több nyelvre, ami több szempontból is súlyos következményekkel fenyeget.

Az Amazon Web Services (AWS) mesterségesintelligencia-kutatói szerint az internetet teljesen elárasztotta a gépi fordítással gyártott, rossz minőségű tartalom: nemrég közölt kutatásuk értelmében az online térben található összes mondat több mint 57 százalékát két vagy több nyelvre is átültették, a fordítások megdöbbentő mennyisége azok alacsony színvonalával együtt pedig arra utal, hogy elsősorban nagy nyelvi modelleket (large language model, LLM) használták az anyagok elkészítéséhez. A jelenség különösen szembetűnő azokon az Afrikában és a globális Dél országaiban beszélt nyelveken, amelyeken kevesebb nívós tartalom áll rendelkezésre az MI-modellek képzéséhez.

Az AWS egyik munkatársa a Vice-Motherboard kérdésére elmondta: azért kezdtek foglalkozni a témával, mert az utóbbi nyelveket anyanyelvként beszélő kollégáik szerint az ilyen anyagok nagy része láthatóan gépi fordítás (machine translation, MT) eredménye. Egy 6,38 milliárd mondatból álló korpusz vizsgálata során arra jutottak, hogy az internet nagy részét tényleg lefordítják, a minőség pedig minimum hullámzó. A legtöbb anyag az online térben több erőforrást felvonultató nyelveken rendelkezik párhuzamos adatokkal, tehát valószínűbb, hogy a mondatokat például franciára fordítják, mint mondjuk xhosza vagy volof nyelvekre, és utóbbiak lényegesen gyengébbre is sikerülnek.

Figyelmeztetésekből nincs hiány

Ugyancsak megfigyelték, hogy minél több nyelvre fordítanak le egy mondatot, annál igénytelenebbek lesznek a fordítások, ami a MT technológia gyors terjedésére utal. A minta torzulást mutat az 5-10 szavas, rövidebb és könnyebben "megjósolható" mondatok irányában, melyek túlnyomó többsége idétlen témákról írt, erőfeszítéset vagy szakértelmet nem igénylő (feltehetően angol eredetivel rendelkező) cikkekből származott. Az érintett nyelveket innentől még nehezebb lesz feldolgozni az internetről szerzett anyagokon keresztül: az MI-modellek egyre alacsonyabb teljesítményűek lesznek a szöveg folyákonyságát és pontosságát tekintve, ezen felül hajlamosabbá válnak a hallucinációra is.

Tavaly nyáron mi is beszámoltunk a Rest of World és a W3Techs online kutatásáról, ami az angol, a német vagy a japán nyelvet sokkal gyakoribbnak találta az interneten, mint azt az anyanyelvi beszélők száma indokolta volna. A kínai és a hindi ezzel szemben a vizsgált publikus domainek 1,4, illetve 0,07 százalékát adta, miközben százmilliók által beszélt nyelvek (bengáli, urdu) gyakorlatilag nem is léteznek a világhálón. A lap az UNESCO 2003-as előrejelzését is idézi, ami már akkor arra figyelmeztetett, hogy az internet bővülésével egyre nő a beszélt és az online használt nyelvek közti szakadék, és belátható időn belül eljutunk oda, hogy csak néhánynak lesz érdemi jelenléte a világhálón.

Közösség & HR

A sötét webet figyelik a Google MI-ügynökei

A Google Threat Intelligence rendszerében a Gemini-alapú ágensek önjáróan elemezgetik a dark webes fórumokat, hogy az eddigieknél hatékonyabban tárják fel az adatszivárgásokat és a kezdeti hozzáféréseket.
 
Nincs egy új, "alapértelmezett" platform a VMware mellett, helyett; az informatikai vezetők egy, a korábbinál jelentősen összetettebb döntési helyzetben találják magukat 2026-ban. Cikkünk arra a kérdésre keresi a választ, hogy milyen lehetőségek közül választhatnak a CIO-k.

a melléklet támogatója az EURO ONE

Hirdetés

HPE Morpheus VM Essentials: a virtualizáció arany középútja

Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.