Többé-kevésbé már belénk vésődött az a közhely, hogy a generatív mesterséges intelligencia modellek hallucinálnak, vagyis összevissza beszélnek tényként olyan dolgokról, amik meg sem történtek. Értelmesnek tűnő válaszokat adnak, melyek nyelvileg helyesek, tartalmilag viszont köszönő viszonyban sincsenek a valósággal. De még mindig tudnak meglepetést okozni olyan hibajelenségek generálásával, amiket a felhasználók nem tudnak hova tenni.
A közelmúltban egy brit felhasználót viccelt meg a ChatGPT. Angol nyelvű kérdéseire rendre walesi nyelven kapott válaszokat. A program először lefordította a kelta nyelvre a kérdést, majd azon adta meg a választ. A Financial Timesnak több olyan Egyesült Királyságban élő felhasználó is beszámolt a hibáról, akik nem beszélnek walesiül, és nem még csak nem is tartózkodtak Wales közelében. Az OpenAI fórumán csupán két eset olvasható – válasz nélkül.
A ChatGPT korábban is vétett hasonló hibákat, például összekeverte az angolt és a spanyolt, de arra még magyarázat lehetett, hogy az USA azon területein, ahol magas a spanyol ajkúak aránya, eléggé elterjedt a két nyelvet keverő "spanglish". Walesi nyelven szólása talán azért keltett nagyobb feltűnést, mert mindösszesen ha 600 ezren beszélhetik világszerte (ami persze önmagában is kisebbfajta csoda, hiszen az országban 1535-ban az angol lett a hivatalos nyelv, a walesi pedig csak 1967-ben kapta vissza ezt a státuszát).
A lap szerint ez valójában új elem lehet az LLM-ek (large language model) hallucinációs problémái között. Nem csak a ChatGPT problémája: a Google és a Meta LLM-je, vagy az Anthropic, a Cohere vagy xAI számára egyaránt komoly kihívás.
Kisebb nyelvek: támogatás korlátokkal
A ChatGPT jelenleg közel 60 nyelvet támogat teljesen és további több tucatot részlegesen. Az egyes nyelvek értésének-kezelésének minőségében valószínűleg nagy a szórás – mi is szinte biztosan találhatnánk kivetnivalót magyartudásában, pedig nyelvünk a teljesen támogatott kategóriába tartozik.
A csak részelegesen támogatott walesi különösen rosszul járt. A Financial Times látott egy olyan belső kutatási anyagot, amiben az OpenAI ezt el is ismerte. Hiába használtak mintegy 9000 órányi adatot a modell képzésére, a ChatGPT a fejlesztők által vártnál sokkal gyengébb teljesítményt nyújtott. Az ok meglehetősen banális: a használt szövegek jelentős részéről kiderült, hogy valójában angol nyelvűek, csak a rendszer tévesen azonosította. A walesi kormány ezért – és persze a nemzeti nyelv népszerűsítéséért – júniusban adatpartneri megállapodást kötött az OpenAI-jal. Ad tiszta adatkészleteket, cserébe azt várja, hogy a cég javítja a walesi nyelv támogatását.
Az OpenAI szóvivője azt mondta a Financial Timesnak, hogy a modell néha hibázik a hangutasítások átírásánál. Ezen az segíthet, ha a "Speech" beállításánál az automatikus észlelést konkrét nyelvre állítja a felhasználó. De azt nem tudják garantálni, hogy ez valóban megoldja a problémát.
A kis nyelvek hátránya
Nem csak a pár százezer ember beszélte walesi van hátrányos helyzetben. A magyart becslések szerint 17 millióan beszélik világszerte, mégis rendre korlátokba ütközünk, ha a ChatGPT-t magyarul akarjuk munkára fogni.
Az LLM-ek fejlesztésénél egy dolog számít ugyanis: a képzési adatok minősége és mennyisége. Emiatt van az, hogy míg világnyelveken jól működnek az MI-alapú alkalmazások, magyar nyelvre váltva már sokat hibáznak. De ez érthető is: az OpenAI kb. 180 milliárd szavas angol és mindössze 120-130 millió szavas magyar szövegállományt használt a ChatGPT tanításához.
Ebben hozhat változást a két magyar fejlesztés, a Puli-GPT és az OTP Bank magyar nyelvi modellje.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak