Hiába kérdezték angolul, rendre walesi nyelven válaszolt, amit viszont kérdezője nem értett.

Többé-kevésbé már belénk vésődött az a közhely, hogy a generatív mesterséges intelligencia modellek hallucinálnak, vagyis összevissza beszélnek tényként olyan dolgokról, amik meg sem történtek. Értelmesnek tűnő válaszokat adnak, melyek nyelvileg helyesek, tartalmilag viszont köszönő viszonyban sincsenek a valósággal. De még mindig tudnak meglepetést okozni olyan hibajelenségek generálásával, amiket a felhasználók nem tudnak hova tenni.

A közelmúltban egy brit felhasználót viccelt meg a ChatGPT. Angol nyelvű kérdéseire rendre walesi nyelven kapott válaszokat. A program először lefordította a kelta nyelvre a kérdést, majd azon adta meg a választ. A Financial Timesnak több olyan Egyesült Királyságban élő felhasználó is beszámolt a hibáról, akik nem beszélnek walesiül, és nem még csak nem is tartózkodtak Wales közelében. Az OpenAI fórumán csupán két eset olvasható – válasz nélkül.

A ChatGPT korábban is vétett hasonló hibákat, például összekeverte az angolt és a spanyolt, de arra még magyarázat lehetett, hogy az USA azon területein, ahol magas a spanyol ajkúak aránya, eléggé elterjedt a két nyelvet keverő "spanglish". Walesi nyelven szólása talán azért keltett nagyobb feltűnést, mert mindösszesen ha 600 ezren beszélhetik világszerte (ami persze önmagában is kisebbfajta csoda, hiszen az országban 1535-ban az angol lett a hivatalos nyelv, a walesi pedig csak 1967-ben kapta vissza ezt a státuszát).

A lap szerint ez valójában új elem lehet az LLM-ek (large language model) hallucinációs problémái között. Nem csak a ChatGPT problémája: a Google és a Meta LLM-je, vagy az Anthropic, a Cohere vagy xAI számára egyaránt komoly kihívás.

Kisebb nyelvek: támogatás korlátokkal

A ChatGPT jelenleg közel 60 nyelvet támogat teljesen és további több tucatot részlegesen. Az egyes nyelvek értésének-kezelésének minőségében valószínűleg nagy a szórás – mi is szinte biztosan találhatnánk kivetnivalót magyartudásában, pedig nyelvünk a teljesen támogatott kategóriába tartozik.

A csak részelegesen támogatott walesi különösen rosszul járt. A Financial Times látott egy olyan belső kutatási anyagot, amiben az OpenAI ezt el is ismerte. Hiába használtak mintegy 9000 órányi adatot a modell képzésére, a ChatGPT a fejlesztők által vártnál sokkal gyengébb teljesítményt nyújtott. Az ok meglehetősen banális: a használt szövegek jelentős részéről kiderült, hogy valójában angol nyelvűek, csak a rendszer tévesen azonosította. A walesi kormány ezért – és persze a nemzeti nyelv népszerűsítéséért – júniusban adatpartneri megállapodást kötött az OpenAI-jal. Ad tiszta adatkészleteket, cserébe azt várja, hogy a cég javítja a walesi nyelv támogatását.

Az OpenAI szóvivője azt mondta a Financial Timesnak, hogy a modell néha hibázik a hangutasítások átírásánál. Ezen az segíthet, ha a "Speech" beállításánál az automatikus észlelést konkrét nyelvre állítja a felhasználó. De azt nem tudják garantálni, hogy ez valóban megoldja a problémát.

A kis nyelvek hátránya

Nem csak a pár százezer ember beszélte walesi van hátrányos helyzetben. A magyart becslések szerint 17 millióan beszélik világszerte, mégis rendre korlátokba ütközünk, ha a ChatGPT-t magyarul akarjuk munkára fogni.

Az LLM-ek fejlesztésénél egy dolog számít ugyanis: a képzési adatok minősége és mennyisége. Emiatt van az, hogy míg világnyelveken jól működnek az MI-alapú alkalmazások, magyar nyelvre váltva már sokat hibáznak. De ez érthető is: az OpenAI kb. 180 milliárd szavas angol és mindössze 120-130 millió szavas magyar szövegállományt használt a ChatGPT tanításához.

Ebben hozhat változást a két magyar fejlesztés, a Puli-GPT és az OTP Bank magyar nyelvi modellje.

Cloud & big data

Fémmel is tudnak már nyomtatni az űrben

A technológia nagyban megkönnyítheti a nagyobb űrutazások tervezését. A szó legszorosabb értelmében, hiszen így nem kell minden eshetőségre készülve pakolni.
 
A teljes életciklust lefedő rendszerek képesek megszüntetni azt a káoszt, ami a szervezetek zöménél még mindig akadályozza az információáramlást.

a melléklet támogatója a GLOBAL-UNION Kft., a Kyocera márka kizárólagos magyar disztribútora

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.