Eddig ugyanis azt gondolták, hogy bizonyos képességei váratlanul, szinte a semmiből jelennek meg. Egy stanfordi kutatócsapat szerint azonban csak a mérés volt rossz.
Hirdetés
 

Van egy széles körben alkalmazott metódus az LLM-ek ( large language model) tesztelésére: a Beyond the Imitation Game vagy BIG-bench. A mintegy 450 kutató közös munkájának eredményeként született 204 feladatot tartalmazó listáról azt gondolják, hogy összehasonlíthatóvá teszi az LLM-eket, illetve mérhetővé teszi a modellek fejlődését.

Alkalmazásakor azt figyelték meg, hogy bizonyos feladatoknál az LLM teljesítménye egyenes arányban javul a méretével, azaz minél nagyobb a modell, annál jobban teljesít. Más feladattípusoknál azonban ugrásszerűen következnek be változások. Az ilyen jelenségeket a kutatók áttörő (breakthrough) viselkedésnek nevezik. Sokan úgy vélték, hogy az ilyen képességek megjelenése nemcsak meglepő, de kiszámíthatatlan is. Emiatt is kellene odafigyelni rájuk, mert növelik az MI biztonsági kockázatait. A váratlan (az MI-kutatók terminusában: emergens) képességek csak akkor jelennek meg, ha egy rendszer eléri a komplexitás egy megfelelően magas szintjét.

Nem mindegy, milyen colstokkal mérünk

Most a Stanfordon egy csapat azt gyanítja, hogy eddig valószínűleg rosszul mértek. A csapat is feltette a kérdést, amit a fizikai világ vizsgálatakor sokszor feltesznek a kutatók: jó-e a mérőeszköz? Az Arxiv.org-on megjelent tanulmányukban azt igyekeznek bizonyítani, hogy a képességek nem hirtelen jelennek meg, és nem is kiszámíthatatlanok. Azt nem vonják kétségbe, hogy az LLM-ek hatékonysága folyamatosan javul a paraméterek számának (nagyon leegyszerűsítve: a betáplált szavak összekapcsolásának lehetséges módjai) növekedésével, és olyan feladatokban is sikeresek lehetnek, melyekre nem képezték ki őket. De ezek a képességek is ugyanúgy folyamatosan fejlődnek a modell méretének növekedésével, mint amiknek a fejlődését korábban kiszámíthatónak tartották.

Ennek igazolására a háromjegyű számok összeadást hozták. A BIG-bench azt hozta ki, hogy a kisebb modellek (pl. a GPT-3 vagy a Google LaMDA modellje) nem tudják (pontosan) megoldani a feladatot. Amikor azonban jelentősen növelték a paraméterek számát, hirtelen képesek lettek elvégezni a műveletet. A kutatók úgy vélték, az összeadás képességéhez a modell fejlettségének el kellett érnie egy bizonyos méretküszöböt.

Na de mi van akkor, ha nem csak a pontosság alapján ítéljük meg, hogy egy modell rendelkezik-e az összeadás képességével? A Stanford kutatói ezen a ponton találták meg a BIG-bench eredményeire épülő érvelés hibáját: a képességeket nem szabad csak az eredmény pontossága alapján megítélni. A BIG-bench szerint ha egy LLM nem jósolja meg helyesen a számot, akkor kudarcot vall. Pedig, mondják a stanfordosok, inkább a jóslás pontosságát kellene vizsgálni, ha például össze kell adni 101-et 225-tel, a 324-et jobb eredménynek kellene elfogadni, mint például a 6-ot, bár nyilvánvalóan egyik sem pontos.

Ezért módosították a mérési módszert, és az eredmény pontosságát értékelték. Megjósoltatták az eredmény első számjegyét, majd a másodikat, aztán a harmadikat stb. Így viszont – a fenti példánál maradva – a 324 egészen jó, míg a 6 rossz válasznak minősül. Innen már csak egy lépés volt annak kimutatása, hogy a paraméterek növekedésével az LLM-ek egyre pontosabban jósoltak. Azaz nem egy váratlan, új képesség születik a semmiből azért, mert a modell elért egy adott komplexitási küszöböt. A fejlődés igenis fokozatos és kiszámítható.

Nem ad mindenre magyarázatot

Az új mérési módszer azonban nem teszi fölöslegessé az emergencia fogalmát, például továbbra sem használható annak megjóslására, hogy a mérőszámok mikor mutatnak hirtelen javulást egy LLM-ben. A BIG-bench egyik szerzője pedig azzal érvel, hogy egy aritmetikai képesség esetében – finomítsuk akárhogy a mérést – egy dolog számít: igaz vagy hamis az eredmény?

Az Anthropic AI kutatója, Alex Tamkin továbbra is úgy véli: igenis vannak breakthrough jelenségek az LLM-ek fejlődésében. "Nem mondhatjuk, hogy mindezek az ugrások csak délibáb" – nyilatkozta a Quanta Magazine-nak. Szerinte a szakirodalom a mérési módszertől függetlenül számos példát hoz a modellek ugrásszerűen javulására.

Cloud & big data

Trump a nem létező robothadseregnek is keresztbe tett

Eddig sem volt könnyen hihető, hogy az egyre nagyobb bajban lévő Tesla már az idén ezerszám gyártja majd a humanoid robotokat, de a kínai kereskedelmi korlátozásokkal alapanyag sem feltétlenül lesz a gyártásukhoz.
 
Hirdetés

Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?

A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió.

Azok a vállalatok, amelyek gyorsabban, intelligensebben és empatikusabban tudnak reagálni ügyfeleik kérdéseire, összességében értékesebb, hosszabb távú kapcsolatokat építhetnek ki.

a melléklet támogatója a One Solutions

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.