A nagy nyelvi modellekre (LLM) épülő chatbotok régóta ismert problémája, hogy az algoritmusok képesek teljesen valótlan információval előállni, majd a válaszokban mindezt abszolút tényként tálalni. Ez az MI-hallucinációnak nevezett jelenség az egyik (de nem egyetlen) oka, hogy a hatalmas felhajtás ellenére azért még most is nagyítóval kell keresni az LLM-ekre épülő, igazán fajsúlyos megoldásokat.
Mindez természetesen nem jó hír a terület élharcosának, az OpenAI-nak sem. Az pedig pláne nem, hogy ezen a téren egy fontos trend tört meg náluk. A TechCrunch beszámolója alapján a cég legújabb, alig néhány napja bemutatott modelljei ugyanis többet hallucinálnak, mint jó pár korábbi változat.
A nagy nyelvi modellek folyamatos és gyors fejlődése eddig együtt járt az algoritmusos kitalációk mérséklődésével. Pont ezért különösen aggasztó, hogy az o3 és o4-mini néven emlegetett, az ígéretek szerint matematikai, kódolási és tudományos képességekben is kiemelkedően teljesítő legújabb LLM-ek ennyire fogékonyak a hallucinációra.
A házon belüli mérések az o3 esetében 33 százalékos, az o4-mininél pedig még ennél is magasabb, 48 százalékos hallucinációs arányt rögzítettek. Utóbbi azzal is magyarázható, hogy kisebb modellről van szó, ami kevesebb ismerettel rendelkezik a világról. Ettől függetlenül ezek az értékek sokkal magasabbak, mint amennyit a vállalat korábbi modelljei, például az o1, az o1-mini, vagy éppen a januárban debütált o3-mini produkált.
Dolgoznak rajta
Nem túl biztató, hogy a világ legjelentősebb MI-műhelyében egyelőre csak vakargatják a fejüket a tudósok. A cég április közepén kiadott technikai jelentésében például az olvasható, hogy "további kutatásokra van szükség a burjánzó hallucinációk okának megértéséhez".
Az OpenAI szóvivője mindenesetre igyekezett eloszlatni az aggályokat, és a TechCrunch megkeresésére közölte, hogy a cég összes modellje esetében kiemelt kutatási területnek számít a hallucinációk kezelése, és természetesen "folyamatosan dolgoznak a pontosság és megbízhatóság javításán”. Kár, hogy mindez nem tükröződik a legújabb modellek teszteredményein.
Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?
A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak