Hiába kérdezték angolul, rendre walesi nyelven válaszolt, amit viszont kérdezője nem értett.

Többé-kevésbé már belénk vésődött az a közhely, hogy a generatív mesterséges intelligencia modellek hallucinálnak, vagyis összevissza beszélnek tényként olyan dolgokról, amik meg sem történtek. Értelmesnek tűnő válaszokat adnak, melyek nyelvileg helyesek, tartalmilag viszont köszönő viszonyban sincsenek a valósággal. De még mindig tudnak meglepetést okozni olyan hibajelenségek generálásával, amiket a felhasználók nem tudnak hova tenni.

A közelmúltban egy brit felhasználót viccelt meg a ChatGPT. Angol nyelvű kérdéseire rendre walesi nyelven kapott válaszokat. A program először lefordította a kelta nyelvre a kérdést, majd azon adta meg a választ. A Financial Timesnak több olyan Egyesült Királyságban élő felhasználó is beszámolt a hibáról, akik nem beszélnek walesiül, és nem még csak nem is tartózkodtak Wales közelében. Az OpenAI fórumán csupán két eset olvasható – válasz nélkül.

A ChatGPT korábban is vétett hasonló hibákat, például összekeverte az angolt és a spanyolt, de arra még magyarázat lehetett, hogy az USA azon területein, ahol magas a spanyol ajkúak aránya, eléggé elterjedt a két nyelvet keverő "spanglish". Walesi nyelven szólása talán azért keltett nagyobb feltűnést, mert mindösszesen ha 600 ezren beszélhetik világszerte (ami persze önmagában is kisebbfajta csoda, hiszen az országban 1535-ban az angol lett a hivatalos nyelv, a walesi pedig csak 1967-ben kapta vissza ezt a státuszát).

A lap szerint ez valójában új elem lehet az LLM-ek (large language model) hallucinációs problémái között. Nem csak a ChatGPT problémája: a Google és a Meta LLM-je, vagy az Anthropic, a Cohere vagy xAI számára egyaránt komoly kihívás.

Kisebb nyelvek: támogatás korlátokkal

A ChatGPT jelenleg közel 60 nyelvet támogat teljesen és további több tucatot részlegesen. Az egyes nyelvek értésének-kezelésének minőségében valószínűleg nagy a szórás – mi is szinte biztosan találhatnánk kivetnivalót magyartudásában, pedig nyelvünk a teljesen támogatott kategóriába tartozik.

A csak részelegesen támogatott walesi különösen rosszul járt. A Financial Times látott egy olyan belső kutatási anyagot, amiben az OpenAI ezt el is ismerte. Hiába használtak mintegy 9000 órányi adatot a modell képzésére, a ChatGPT a fejlesztők által vártnál sokkal gyengébb teljesítményt nyújtott. Az ok meglehetősen banális: a használt szövegek jelentős részéről kiderült, hogy valójában angol nyelvűek, csak a rendszer tévesen azonosította. A walesi kormány ezért – és persze a nemzeti nyelv népszerűsítéséért – júniusban adatpartneri megállapodást kötött az OpenAI-jal. Ad tiszta adatkészleteket, cserébe azt várja, hogy a cég javítja a walesi nyelv támogatását.

Az OpenAI szóvivője azt mondta a Financial Timesnak, hogy a modell néha hibázik a hangutasítások átírásánál. Ezen az segíthet, ha a "Speech" beállításánál az automatikus észlelést konkrét nyelvre állítja a felhasználó. De azt nem tudják garantálni, hogy ez valóban megoldja a problémát.

A kis nyelvek hátránya

Nem csak a pár százezer ember beszélte walesi van hátrányos helyzetben. A magyart becslések szerint 17 millióan beszélik világszerte, mégis rendre korlátokba ütközünk, ha a ChatGPT-t magyarul akarjuk munkára fogni.

Az LLM-ek fejlesztésénél egy dolog számít ugyanis: a képzési adatok minősége és mennyisége. Emiatt van az, hogy míg világnyelveken jól működnek az MI-alapú alkalmazások, magyar nyelvre váltva már sokat hibáznak. De ez érthető is: az OpenAI kb. 180 milliárd szavas angol és mindössze 120-130 millió szavas magyar szövegállományt használt a ChatGPT tanításához.

Ebben hozhat változást a két magyar fejlesztés, a Puli-GPT és az OTP Bank magyar nyelvi modellje.

Cloud & big data

Az Nvidia vezetője félreérti, mitől lesz visszautasíthatatlan egy ajánlat

Máshol csak a pénztártól való távozás után nem fogadják el a reklamációt, de Jensen Huang már azt is teljes tévedésnek tartja, ha valaki nem jön be nézelődni az MI-boltba.
 

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Hirdetés

HPE Morpheus VM Essentials: a virtualizáció arany középútja

Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.

A VMware felvásárlása és licencelési gyakorlatának átalakítása erősen rányomta a bélyegét az adatközponti infrastruktúrára: a korábban kiszámítható alap bizonytalanná és gyakran költségesebbé vált.

a melléklet támogatója az EURO ONE

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.