A nagy nyelvi modellek (LLM-ek) minden új kiadásukkal egyre erősebbnek tűnnek, de a megbízhatóságuk ezzel fordítottan arányosan alakul – derül ki a Nature oldalán a múlt héten közzétett tanulmányból. Ebben az OpenAI GPT-jét, a Meta LLaMA-ját és a nyílt forrású BLOOM modellt vizsgálva arra jutottak, hogy a fejlettebb rendszerek sok esetben tényleg egyre pontosabb válaszokat képesek generálni, azonban a korábbi változatoknál így is nagyobb arányban adnak hibás kimeneteket. Nagyobb valószínűséggel gyártanak ugyanis kamu információt ahelyett, hogy jeleznék, ha egy-egy kérdésre nem tudnak válaszolni.
A cikkben a tanulmány egyik szerzője kifejti, hogy az LLM-ek már szinte minden utasításra reagálnak, ami nem csak a helyes, hanem a helytelen válaszok számának növekedésével is jár. Egy másik kutató szerint ez egyszerűen a süketelésről szól, mivel az okosabb kiadások akkor is egyre hatékonyabban képesek eljátszani, hogy értenek valamihez. A legnagyobb vetítőgépnek egyébként az OpenAI GPT-4-et és o1-et találták, amelyek majdnem minden kérdésre határozottan válaszoltak, de a jelenség annyira általános, hogy még a LLaMA modellek sem tudták elérni a 60 százalékos pontosságot a legkönnyebb kérdésekben.
Nem adják alább a mindentudásnál
A kutatás során arra jutottak, hogy minél nagyobbak az MI-modellek a paraméterek, a képzési adatok és más tényezők tekintetében, annál jobbak az összetettebb kérdések feldolgozásában, de annál nagyobb arányban adnak helytelen válaszokat is. A sokat emlegetett hallucináció mellett ráadásul makacs problémának tűnik, hogy a legfejlettebb rendszerek is folyamatosan elvéreznek a triviális kérdéseken. A tudósok itt megjállapítják, hogy az MI kifinomult megoldásai annyira lenyűgöznek bennünket, hogy hajlamosak vagyunk figyelmen kívül hagyni az alapvető hibáit, pedig azokat figyelmeztető jelnek kellene tekintenünk.
Ez utóbbi azért is érdekes, mert a tanulmány kitér rá, hogy az emberek milyen kijózanító módon értékelik a mesterséges intelligencia kimeneteit: a kutatásban részt vevő csoport tagjai az esetek 10-40 százalékában ítélték meg tévesen, hogy az MI pontos vagy pontatlan információt tálalt eléjük. Ahogy a mostani anyagban is javasolják, kézenfekvő lenne meghatározni egy olyan tartományt, amelyben a chatbotok egyszerűen csak annyit felelnének, hogy "nem tudom". Ez jól bemutatná mindenkinek a technológia mai koráltait, bár kétségtelen, hogy nem lenne könnyű összeegyeztetni az LLM-ek fejlesztése körüli hisztériával.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak