Egy friss kutatás szerint a kézenfekvő megoldás a fejlesztők és a modellek önkorlátozása lenne, amire az eddigi tapasztalatok alapján nem érdemes nagyobb összegben fogadni.

A nagy nyelvi modellek (LLM-ek) minden új kiadásukkal egyre erősebbnek tűnnek, de a megbízhatóságuk ezzel fordítottan arányosan alakul – derül ki a Nature oldalán a múlt héten közzétett tanulmányból. Ebben az OpenAI GPT-jét, a Meta LLaMA-ját és a nyílt forrású BLOOM modellt vizsgálva arra jutottak, hogy a fejlettebb rendszerek sok esetben tényleg egyre pontosabb válaszokat képesek generálni, azonban a korábbi változatoknál így is nagyobb arányban adnak hibás kimeneteket. Nagyobb valószínűséggel gyártanak ugyanis kamu információt ahelyett, hogy jeleznék, ha egy-egy kérdésre nem tudnak válaszolni.

A cikkben a tanulmány egyik szerzője kifejti, hogy az LLM-ek már szinte minden utasításra reagálnak, ami nem csak a helyes, hanem a helytelen válaszok számának növekedésével is jár. Egy másik kutató szerint ez egyszerűen a süketelésről szól, mivel az okosabb kiadások akkor is egyre hatékonyabban képesek eljátszani, hogy értenek valamihez. A legnagyobb vetítőgépnek egyébként az OpenAI GPT-4-et és o1-et találták, amelyek majdnem minden kérdésre határozottan válaszoltak, de a jelenség annyira általános, hogy még a LLaMA modellek sem tudták elérni a 60 százalékos pontosságot a legkönnyebb kérdésekben.

Nem adják alább a mindentudásnál

A kutatás során arra jutottak, hogy minél nagyobbak az MI-modellek a paraméterek, a képzési adatok és más tényezők tekintetében, annál jobbak az összetettebb kérdések feldolgozásában, de annál nagyobb arányban adnak helytelen válaszokat is. A sokat emlegetett hallucináció mellett ráadásul makacs problémának tűnik, hogy a legfejlettebb rendszerek is folyamatosan elvéreznek a triviális kérdéseken. A tudósok itt megjállapítják, hogy az MI kifinomult megoldásai annyira lenyűgöznek bennünket, hogy hajlamosak vagyunk figyelmen kívül hagyni az alapvető hibáit, pedig azokat figyelmeztető jelnek kellene tekintenünk.

Ez utóbbi azért is érdekes, mert a tanulmány kitér rá, hogy az emberek milyen kijózanító módon értékelik a mesterséges intelligencia kimeneteit: a kutatásban részt vevő csoport tagjai az esetek 10-40 százalékában ítélték meg tévesen, hogy az MI pontos vagy pontatlan információt tálalt eléjük. Ahogy a mostani anyagban is javasolják, kézenfekvő lenne meghatározni egy olyan tartományt, amelyben a chatbotok egyszerűen csak annyit felelnének, hogy "nem tudom". Ez jól bemutatná mindenkinek a technológia mai koráltait, bár kétségtelen, hogy nem lenne könnyű összeegyeztetni az LLM-ek fejlesztése körüli hisztériával.

Közösség & HR

Egyedi linkkel lehet pénzt küldeni a PayPalben

A személyek közötti pénzküldés olyan egyszerűvé válik, mint egy SMS elküldése, állítja a fizetési szolgáltató.
 
Hirdetés

A kifizetett energia
60%-a elvész, de egy audit feltárja, hol folyik el a pénzünk

A Schneider Electric energiahatékonysági szolgáltatása átfogó megoldást kínál, amely támogatja a cégek energiahatékonyság-növelési programjaik megvalósításában, az iparágban vezető megoldások, szolgáltatások és szakértők segítségével.

A vállalati IT-rendszerek egyik legnagyobb kihívása ma már nem a hardver beszerzése vagy a szoftverek integrációja, hanem az üzemeltetés. A modern storage-megoldások válasza erre az automatizáció és a menedzsment egyszerűsítése.

a melléklet támogatója az EURO ONE

Hirdetés

Hatékony adattárolás, biztonságosabb működés: HPE storage az EURO ONE szakértelmével

Az adatmennyiség rohamos növekedése, a kritikus üzleti alkalmazások rendelkezésre állási követelményei és a kiberbiztonsági fenyegetések mind olyan tényezők, amelyek túlmutatnak a hagyományos storage-megoldások képességein.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.