Megszállta a szellem a ChatGPT-t, és nyelveken szólt

Bitport2024.08.17.Cloud & big data

Hiába kérdezték angolul, rendre walesi nyelven válaszolt, amit viszont kérdezője nem értett.

Többé-kevésbé már belénk vésődött az a közhely, hogy a generatív mesterséges intelligencia modellek hallucinálnak, vagyis összevissza beszélnek tényként olyan dolgokról, amik meg sem történtek. Értelmesnek tűnő válaszokat adnak, melyek nyelvileg helyesek, tartalmilag viszont köszönő viszonyban sincsenek a valósággal. De még mindig tudnak meglepetést okozni olyan hibajelenségek generálásával, amiket a felhasználók nem tudnak hova tenni.

A közelmúltban egy brit felhasználót viccelt meg a ChatGPT. Angol nyelvű kérdéseire rendre walesi nyelven kapott válaszokat. A program először lefordította a kelta nyelvre a kérdést, majd azon adta meg a választ. A Financial Timesnak több olyan Egyesült Királyságban élő felhasználó is beszámolt a hibáról, akik nem beszélnek walesiül, és nem még csak nem is tartózkodtak Wales közelében. Az OpenAI fórumán csupán két eset olvasható – válasz nélkül.

A ChatGPT korábban is vétett hasonló hibákat, például összekeverte az angolt és a spanyolt, de arra még magyarázat lehetett, hogy az USA azon területein, ahol magas a spanyol ajkúak aránya, eléggé elterjedt a két nyelvet keverő "spanglish". Walesi nyelven szólása talán azért keltett nagyobb feltűnést, mert mindösszesen ha 600 ezren beszélhetik világszerte (ami persze önmagában is kisebbfajta csoda, hiszen az országban 1535-ban az angol lett a hivatalos nyelv, a walesi pedig csak 1967-ben kapta vissza ezt a státuszát).

A lap szerint ez valójában új elem lehet az LLM-ek (large language model) hallucinációs problémái között. Nem csak a ChatGPT problémája: a Google és a Meta LLM-je, vagy az Anthropic, a Cohere vagy xAI számára egyaránt komoly kihívás.

Kisebb nyelvek: támogatás korlátokkal

A ChatGPT jelenleg közel 60 nyelvet támogat teljesen és további több tucatot részlegesen. Az egyes nyelvek értésének-kezelésének minőségében valószínűleg nagy a szórás – mi is szinte biztosan találhatnánk kivetnivalót magyartudásában, pedig nyelvünk a teljesen támogatott kategóriába tartozik.

A csak részelegesen támogatott walesi különösen rosszul járt. A Financial Times látott egy olyan belső kutatási anyagot, amiben az OpenAI ezt el is ismerte. Hiába használtak mintegy 9000 órányi adatot a modell képzésére, a ChatGPT a fejlesztők által vártnál sokkal gyengébb teljesítményt nyújtott. Az ok meglehetősen banális: a használt szövegek jelentős részéről kiderült, hogy valójában angol nyelvűek, csak a rendszer tévesen azonosította. A walesi kormány ezért – és persze a nemzeti nyelv népszerűsítéséért – júniusban adatpartneri megállapodást kötött az OpenAI-jal. Ad tiszta adatkészleteket, cserébe azt várja, hogy a cég javítja a walesi nyelv támogatását.

Az OpenAI szóvivője azt mondta a Financial Timesnak, hogy a modell néha hibázik a hangutasítások átírásánál. Ezen az segíthet, ha a "Speech" beállításánál az automatikus észlelést konkrét nyelvre állítja a felhasználó. De azt nem tudják garantálni, hogy ez valóban megoldja a problémát.

A kis nyelvek hátránya

Nem csak a pár százezer ember beszélte walesi van hátrányos helyzetben. A magyart becslések szerint 17 millióan beszélik világszerte, mégis rendre korlátokba ütközünk, ha a ChatGPT-t magyarul akarjuk munkára fogni.

Az LLM-ek fejlesztésénél egy dolog számít ugyanis: a képzési adatok minősége és mennyisége. Emiatt van az, hogy míg világnyelveken jól működnek az MI-alapú alkalmazások, magyar nyelvre váltva már sokat hibáznak. De ez érthető is: az OpenAI kb. 180 milliárd szavas angol és mindössze 120-130 millió szavas magyar szövegállományt használt a ChatGPT tanításához.

Ebben hozhat változást a két magyar fejlesztés, a Puli-GPT és az OTP Bank magyar nyelvi modellje.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Csalóknak jöhet jól, hogy a ChatGPT még a nagyvállalatok címét is gyakran elhibázza

Egy információbiztonsági cég hívta fel a figyelmet arra, hogy a sokszor badarságokat tényként beállító chatbotokra való túlzott támaszkodás komoly lehetőségekkel kecsegteti netes bűnözőket.

Hirdetés

Így újult meg Magyarország leggyorsabb mobilhálózata

Közel 100 milliárd forintos beruházással, a rádiós és maghálózat teljes modernizációjával zárult le a Yettel történetének egyik legnagyobb műszaki fejlesztése.

A hónap témája

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

A kompromittált rendszerek, a dark weben felbukkanó ügyféladatok vagy a zsarolóvírus-kampányok következményei már a vezérigazgatói és pénzügyi igazgatói irodában csapódnak le – jogi, reputációs és üzleti szinten is. Lehet és kell is védekezni ellene.

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Csalóknak jöhet jól, hogy a ChatGPT még a nagyvállalatok címét is gyakran elhibázza

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia