Úgy tűnik, a bonyolultabb MI hazudozni is jobban szeret

Bitport2024.09.30.Közösség & HR

Egy friss kutatás szerint a kézenfekvő megoldás a fejlesztők és a modellek önkorlátozása lenne, amire az eddigi tapasztalatok alapján nem érdemes nagyobb összegben fogadni.

Hirdetés

A nagy nyelvi modellek (LLM-ek) minden új kiadásukkal egyre erősebbnek tűnnek, de a megbízhatóságuk ezzel fordítottan arányosan alakul – derül ki a Nature oldalán a múlt héten közzétett tanulmányból. Ebben az OpenAI GPT-jét, a Meta LLaMA-ját és a nyílt forrású BLOOM modellt vizsgálva arra jutottak, hogy a fejlettebb rendszerek sok esetben tényleg egyre pontosabb válaszokat képesek generálni, azonban a korábbi változatoknál így is nagyobb arányban adnak hibás kimeneteket. Nagyobb valószínűséggel gyártanak ugyanis kamu információt ahelyett, hogy jeleznék, ha egy-egy kérdésre nem tudnak válaszolni.

A cikkben a tanulmány egyik szerzője kifejti, hogy az LLM-ek már szinte minden utasításra reagálnak, ami nem csak a helyes, hanem a helytelen válaszok számának növekedésével is jár. Egy másik kutató szerint ez egyszerűen a süketelésről szól, mivel az okosabb kiadások akkor is egyre hatékonyabban képesek eljátszani, hogy értenek valamihez. A legnagyobb vetítőgépnek egyébként az OpenAI GPT-4-et és o1-et találták, amelyek majdnem minden kérdésre határozottan válaszoltak, de a jelenség annyira általános, hogy még a LLaMA modellek sem tudták elérni a 60 százalékos pontosságot a legkönnyebb kérdésekben.

Nem adják alább a mindentudásnál

A kutatás során arra jutottak, hogy minél nagyobbak az MI-modellek a paraméterek, a képzési adatok és más tényezők tekintetében, annál jobbak az összetettebb kérdések feldolgozásában, de annál nagyobb arányban adnak helytelen válaszokat is. A sokat emlegetett hallucináció mellett ráadásul makacs problémának tűnik, hogy a legfejlettebb rendszerek is folyamatosan elvéreznek a triviális kérdéseken. A tudósok itt megjállapítják, hogy az MI kifinomult megoldásai annyira lenyűgöznek bennünket, hogy hajlamosak vagyunk figyelmen kívül hagyni az alapvető hibáit, pedig azokat figyelmeztető jelnek kellene tekintenünk.

Ez utóbbi azért is érdekes, mert a tanulmány kitér rá, hogy az emberek milyen kijózanító módon értékelik a mesterséges intelligencia kimeneteit: a kutatásban részt vevő csoport tagjai az esetek 10-40 százalékában ítélték meg tévesen, hogy az MI pontos vagy pontatlan információt tálalt eléjük. Ahogy a mostani anyagban is javasolják, kézenfekvő lenne meghatározni egy olyan tartományt, amelyben a chatbotok egyszerűen csak annyit felelnének, hogy "nem tudom". Ez jól bemutatná mindenkinek a technológia mai koráltait, bár kétségtelen, hogy nem lenne könnyű összeegyeztetni az LLM-ek fejlesztése körüli hisztériával.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Közösség & HR

A világ pénzét ígérték oda Elon Musknak a Tesla részvényesei, hogy vezesse őket

Bár a Tesla vezérigazgatójának nem lesz könnyű dolga, ha az utolsó centig be akarja söpörni az egészen értelmezhetetlen, billió dolláros kompenzációt, néhány tízmilliárdot a legrosszabb esetben is zsebre tehet majd.

Hirdetés

Mi lesz a sötétszál sorsa?

A mindent behálózó dark fiber létjogosultsága megkérdőjeleződik a vezetékmentes technológiák megállíthatatlan terjedésével?

A hónap témája

CAPEX-ből OPEX-be. A transzformáció ára az IT-ban

A vállalati IT-költések a hagyományos, tőkebefektetésen alapuló modellről egyre inkább a szolgáltatásalapú, üzemeltetési költségekre épülő megközelítés felé tolódnak el. Utóbbi rugalmasabb, azonban a teljes birtoklási költség sokszor csak utólag válik láthatóvá.

a melléklet támogatója a 4iG

CIO Podcast

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

A világ pénzét ígérték oda Elon Musknak a Tesla részvényesei, hogy vezesse őket

CAPEX-ből OPEX-be. A transzformáció ára az IT-ban

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia