Egy mítosszal kevesebb: az MI modellek képességeinek fejlődése kiszámítható

Bitport2024.03.25.Cloud & big data

Eddig ugyanis azt gondolták, hogy bizonyos képességei váratlanul, szinte a semmiből jelennek meg. Egy stanfordi kutatócsapat szerint azonban csak a mérés volt rossz.

Van egy széles körben alkalmazott metódus az LLM-ek ( large language model) tesztelésére: a Beyond the Imitation Game vagy BIG-bench. A mintegy 450 kutató közös munkájának eredményeként született 204 feladatot tartalmazó listáról azt gondolják, hogy összehasonlíthatóvá teszi az LLM-eket, illetve mérhetővé teszi a modellek fejlődését.

Alkalmazásakor azt figyelték meg, hogy bizonyos feladatoknál az LLM teljesítménye egyenes arányban javul a méretével, azaz minél nagyobb a modell, annál jobban teljesít. Más feladattípusoknál azonban ugrásszerűen következnek be változások. Az ilyen jelenségeket a kutatók áttörő (breakthrough) viselkedésnek nevezik. Sokan úgy vélték, hogy az ilyen képességek megjelenése nemcsak meglepő, de kiszámíthatatlan is. Emiatt is kellene odafigyelni rájuk, mert növelik az MI biztonsági kockázatait. A váratlan (az MI-kutatók terminusában: emergens) képességek csak akkor jelennek meg, ha egy rendszer eléri a komplexitás egy megfelelően magas szintjét.

Nem mindegy, milyen colstokkal mérünk

Most a Stanfordon egy csapat azt gyanítja, hogy eddig valószínűleg rosszul mértek. A csapat is feltette a kérdést, amit a fizikai világ vizsgálatakor sokszor feltesznek a kutatók: jó-e a mérőeszköz? Az Arxiv.org-on megjelent tanulmányukban azt igyekeznek bizonyítani, hogy a képességek nem hirtelen jelennek meg, és nem is kiszámíthatatlanok. Azt nem vonják kétségbe, hogy az LLM-ek hatékonysága folyamatosan javul a paraméterek számának (nagyon leegyszerűsítve: a betáplált szavak összekapcsolásának lehetséges módjai) növekedésével, és olyan feladatokban is sikeresek lehetnek, melyekre nem képezték ki őket. De ezek a képességek is ugyanúgy folyamatosan fejlődnek a modell méretének növekedésével, mint amiknek a fejlődését korábban kiszámíthatónak tartották.

Ennek igazolására a háromjegyű számok összeadást hozták. A BIG-bench azt hozta ki, hogy a kisebb modellek (pl. a GPT-3 vagy a Google LaMDA modellje) nem tudják (pontosan) megoldani a feladatot. Amikor azonban jelentősen növelték a paraméterek számát, hirtelen képesek lettek elvégezni a műveletet. A kutatók úgy vélték, az összeadás képességéhez a modell fejlettségének el kellett érnie egy bizonyos méretküszöböt.

Na de mi van akkor, ha nem csak a pontosság alapján ítéljük meg, hogy egy modell rendelkezik-e az összeadás képességével? A Stanford kutatói ezen a ponton találták meg a BIG-bench eredményeire épülő érvelés hibáját: a képességeket nem szabad csak az eredmény pontossága alapján megítélni. A BIG-bench szerint ha egy LLM nem jósolja meg helyesen a számot, akkor kudarcot vall. Pedig, mondják a stanfordosok, inkább a jóslás pontosságát kellene vizsgálni, ha például össze kell adni 101-et 225-tel, a 324-et jobb eredménynek kellene elfogadni, mint például a 6-ot, bár nyilvánvalóan egyik sem pontos.

Ezért módosították a mérési módszert, és az eredmény pontosságát értékelték. Megjósoltatták az eredmény első számjegyét, majd a másodikat, aztán a harmadikat stb. Így viszont – a fenti példánál maradva – a 324 egészen jó, míg a 6 rossz válasznak minősül. Innen már csak egy lépés volt annak kimutatása, hogy a paraméterek növekedésével az LLM-ek egyre pontosabban jósoltak. Azaz nem egy váratlan, új képesség születik a semmiből azért, mert a modell elért egy adott komplexitási küszöböt. A fejlődés igenis fokozatos és kiszámítható.

Nem ad mindenre magyarázatot

Az új mérési módszer azonban nem teszi fölöslegessé az emergencia fogalmát, például továbbra sem használható annak megjóslására, hogy a mérőszámok mikor mutatnak hirtelen javulást egy LLM-ben. A BIG-bench egyik szerzője pedig azzal érvel, hogy egy aritmetikai képesség esetében – finomítsuk akárhogy a mérést – egy dolog számít: igaz vagy hamis az eredmény?

Az Anthropic AI kutatója, Alex Tamkin továbbra is úgy véli: igenis vannak breakthrough jelenségek az LLM-ek fejlődésében. "Nem mondhatjuk, hogy mindezek az ugrások csak délibáb" – nyilatkozta a Quanta Magazine-nak. Szerinte a szakirodalom a mérési módszertől függetlenül számos példát hoz a modellek ugrásszerűen javulására.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Elkeseredett hírességek próbálják visszafogni az MI-fejlesztők versenyét

Több ezer befolyásos személyiség csatlakozott ahhoz a kezdeményezéshez, ami kötelezően leállítaná az emberfeletti szuperintelligencia felépítésére irányuló munkát, a tiltás feloldását pedig tudományos konszenzushoz és a közvélemény támogatásához kötné.

Hirdetés

Az end-to-end védelmeké a jövő

A kódbiztonság integrálásával új fejlődési szakaszukba léptek a felhős védelmi platformok. Werner Obringot, a Clico Hungary cloud security architektjét kérdeztük a miértekről és hogyanokról.

A hónap témája

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

A biztonsági megoldásszállítók érthető módon egy irányba mozdulnak, hiszen ugyanazoknak a támadásoknak az ellenszerét keresik. Megoldási javaslataikban sokszor csak árnyalatnyiak a különbségek, ami egyszerre könnyíti és nehezíti a választást.

a melléklet támogatója a Clico Hungary

CIO Podcast

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

CIO Podcast #63: A stressz, a felső vezetők és két perc néma csend

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Elkeseredett hírességek próbálják visszafogni az MI-fejlesztők versenyét

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia