Eddig ugyanis azt gondolták, hogy bizonyos képességei váratlanul, szinte a semmiből jelennek meg. Egy stanfordi kutatócsapat szerint azonban csak a mérés volt rossz.

Van egy széles körben alkalmazott metódus az LLM-ek ( large language model) tesztelésére: a Beyond the Imitation Game vagy BIG-bench. A mintegy 450 kutató közös munkájának eredményeként született 204 feladatot tartalmazó listáról azt gondolják, hogy összehasonlíthatóvá teszi az LLM-eket, illetve mérhetővé teszi a modellek fejlődését.

Alkalmazásakor azt figyelték meg, hogy bizonyos feladatoknál az LLM teljesítménye egyenes arányban javul a méretével, azaz minél nagyobb a modell, annál jobban teljesít. Más feladattípusoknál azonban ugrásszerűen következnek be változások. Az ilyen jelenségeket a kutatók áttörő (breakthrough) viselkedésnek nevezik. Sokan úgy vélték, hogy az ilyen képességek megjelenése nemcsak meglepő, de kiszámíthatatlan is. Emiatt is kellene odafigyelni rájuk, mert növelik az MI biztonsági kockázatait. A váratlan (az MI-kutatók terminusában: emergens) képességek csak akkor jelennek meg, ha egy rendszer eléri a komplexitás egy megfelelően magas szintjét.

Nem mindegy, milyen colstokkal mérünk

Most a Stanfordon egy csapat azt gyanítja, hogy eddig valószínűleg rosszul mértek. A csapat is feltette a kérdést, amit a fizikai világ vizsgálatakor sokszor feltesznek a kutatók: jó-e a mérőeszköz? Az Arxiv.org-on megjelent tanulmányukban azt igyekeznek bizonyítani, hogy a képességek nem hirtelen jelennek meg, és nem is kiszámíthatatlanok. Azt nem vonják kétségbe, hogy az LLM-ek hatékonysága folyamatosan javul a paraméterek számának (nagyon leegyszerűsítve: a betáplált szavak összekapcsolásának lehetséges módjai) növekedésével, és olyan feladatokban is sikeresek lehetnek, melyekre nem képezték ki őket. De ezek a képességek is ugyanúgy folyamatosan fejlődnek a modell méretének növekedésével, mint amiknek a fejlődését korábban kiszámíthatónak tartották.

Ennek igazolására a háromjegyű számok összeadást hozták. A BIG-bench azt hozta ki, hogy a kisebb modellek (pl. a GPT-3 vagy a Google LaMDA modellje) nem tudják (pontosan) megoldani a feladatot. Amikor azonban jelentősen növelték a paraméterek számát, hirtelen képesek lettek elvégezni a műveletet. A kutatók úgy vélték, az összeadás képességéhez a modell fejlettségének el kellett érnie egy bizonyos méretküszöböt.

Na de mi van akkor, ha nem csak a pontosság alapján ítéljük meg, hogy egy modell rendelkezik-e az összeadás képességével? A Stanford kutatói ezen a ponton találták meg a BIG-bench eredményeire épülő érvelés hibáját: a képességeket nem szabad csak az eredmény pontossága alapján megítélni. A BIG-bench szerint ha egy LLM nem jósolja meg helyesen a számot, akkor kudarcot vall. Pedig, mondják a stanfordosok, inkább a jóslás pontosságát kellene vizsgálni, ha például össze kell adni 101-et 225-tel, a 324-et jobb eredménynek kellene elfogadni, mint például a 6-ot, bár nyilvánvalóan egyik sem pontos.

Ezért módosították a mérési módszert, és az eredmény pontosságát értékelték. Megjósoltatták az eredmény első számjegyét, majd a másodikat, aztán a harmadikat stb. Így viszont – a fenti példánál maradva – a 324 egészen jó, míg a 6 rossz válasznak minősül. Innen már csak egy lépés volt annak kimutatása, hogy a paraméterek növekedésével az LLM-ek egyre pontosabban jósoltak. Azaz nem egy váratlan, új képesség születik a semmiből azért, mert a modell elért egy adott komplexitási küszöböt. A fejlődés igenis fokozatos és kiszámítható.

Nem ad mindenre magyarázatot

Az új mérési módszer azonban nem teszi fölöslegessé az emergencia fogalmát, például továbbra sem használható annak megjóslására, hogy a mérőszámok mikor mutatnak hirtelen javulást egy LLM-ben. A BIG-bench egyik szerzője pedig azzal érvel, hogy egy aritmetikai képesség esetében – finomítsuk akárhogy a mérést – egy dolog számít: igaz vagy hamis az eredmény?

Az Anthropic AI kutatója, Alex Tamkin továbbra is úgy véli: igenis vannak breakthrough jelenségek az LLM-ek fejlődésében. "Nem mondhatjuk, hogy mindezek az ugrások csak délibáb" – nyilatkozta a Quanta Magazine-nak. Szerinte a szakirodalom a mérési módszertől függetlenül számos példát hoz a modellek ugrásszerűen javulására.

Cloud & big data

Nem sok mindenkit érdekel az Apple szuperszemüvege

A beszámolók alapján elolvadt az érdeklődés a Vision Pro headsetek iránt, az Apple néhány üzletében szinte nem is keresik a gyártó legújabb hardveres termékét.
 
Hirdetés

Adathelyreállítás pillanatok alatt

A vírus- és végpontvédelmet hatékonyan kiegészítő Zerto, a Hewlett Packard Enterprise Company platformfüggetlen, könnyen használható adatmentési és katasztrófaelhárítási megoldása.

A válasz egyszerű: arról függ, hogy hol, hogyan és milyen szabályozásoknak és üzleti elvárásoknak megfelelően tároljuk az információt. A lényeg azonban a részletekben rejlik.

a melléklet támogatója az EURO ONE Számítástechnikai Zrt.

CIO KUTATÁS

TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?

Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »

Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.