Van egy széles körben alkalmazott metódus az LLM-ek ( large language model) tesztelésére: a Beyond the Imitation Game vagy BIG-bench. A mintegy 450 kutató közös munkájának eredményeként született 204 feladatot tartalmazó listáról azt gondolják, hogy összehasonlíthatóvá teszi az LLM-eket, illetve mérhetővé teszi a modellek fejlődését.
Alkalmazásakor azt figyelték meg, hogy bizonyos feladatoknál az LLM teljesítménye egyenes arányban javul a méretével, azaz minél nagyobb a modell, annál jobban teljesít. Más feladattípusoknál azonban ugrásszerűen következnek be változások. Az ilyen jelenségeket a kutatók áttörő (breakthrough) viselkedésnek nevezik. Sokan úgy vélték, hogy az ilyen képességek megjelenése nemcsak meglepő, de kiszámíthatatlan is. Emiatt is kellene odafigyelni rájuk, mert növelik az MI biztonsági kockázatait. A váratlan (az MI-kutatók terminusában: emergens) képességek csak akkor jelennek meg, ha egy rendszer eléri a komplexitás egy megfelelően magas szintjét.
Nem mindegy, milyen colstokkal mérünk
Most a Stanfordon egy csapat azt gyanítja, hogy eddig valószínűleg rosszul mértek. A csapat is feltette a kérdést, amit a fizikai világ vizsgálatakor sokszor feltesznek a kutatók: jó-e a mérőeszköz? Az Arxiv.org-on megjelent tanulmányukban azt igyekeznek bizonyítani, hogy a képességek nem hirtelen jelennek meg, és nem is kiszámíthatatlanok. Azt nem vonják kétségbe, hogy az LLM-ek hatékonysága folyamatosan javul a paraméterek számának (nagyon leegyszerűsítve: a betáplált szavak összekapcsolásának lehetséges módjai) növekedésével, és olyan feladatokban is sikeresek lehetnek, melyekre nem képezték ki őket. De ezek a képességek is ugyanúgy folyamatosan fejlődnek a modell méretének növekedésével, mint amiknek a fejlődését korábban kiszámíthatónak tartották.
Ennek igazolására a háromjegyű számok összeadást hozták. A BIG-bench azt hozta ki, hogy a kisebb modellek (pl. a GPT-3 vagy a Google LaMDA modellje) nem tudják (pontosan) megoldani a feladatot. Amikor azonban jelentősen növelték a paraméterek számát, hirtelen képesek lettek elvégezni a műveletet. A kutatók úgy vélték, az összeadás képességéhez a modell fejlettségének el kellett érnie egy bizonyos méretküszöböt.
Na de mi van akkor, ha nem csak a pontosság alapján ítéljük meg, hogy egy modell rendelkezik-e az összeadás képességével? A Stanford kutatói ezen a ponton találták meg a BIG-bench eredményeire épülő érvelés hibáját: a képességeket nem szabad csak az eredmény pontossága alapján megítélni. A BIG-bench szerint ha egy LLM nem jósolja meg helyesen a számot, akkor kudarcot vall. Pedig, mondják a stanfordosok, inkább a jóslás pontosságát kellene vizsgálni, ha például össze kell adni 101-et 225-tel, a 324-et jobb eredménynek kellene elfogadni, mint például a 6-ot, bár nyilvánvalóan egyik sem pontos.
Ezért módosították a mérési módszert, és az eredmény pontosságát értékelték. Megjósoltatták az eredmény első számjegyét, majd a másodikat, aztán a harmadikat stb. Így viszont – a fenti példánál maradva – a 324 egészen jó, míg a 6 rossz válasznak minősül. Innen már csak egy lépés volt annak kimutatása, hogy a paraméterek növekedésével az LLM-ek egyre pontosabban jósoltak. Azaz nem egy váratlan, új képesség születik a semmiből azért, mert a modell elért egy adott komplexitási küszöböt. A fejlődés igenis fokozatos és kiszámítható.
Nem ad mindenre magyarázatot
Az új mérési módszer azonban nem teszi fölöslegessé az emergencia fogalmát, például továbbra sem használható annak megjóslására, hogy a mérőszámok mikor mutatnak hirtelen javulást egy LLM-ben. A BIG-bench egyik szerzője pedig azzal érvel, hogy egy aritmetikai képesség esetében – finomítsuk akárhogy a mérést – egy dolog számít: igaz vagy hamis az eredmény?
Az Anthropic AI kutatója, Alex Tamkin továbbra is úgy véli: igenis vannak breakthrough jelenségek az LLM-ek fejlődésében. "Nem mondhatjuk, hogy mindezek az ugrások csak délibáb" – nyilatkozta a Quanta Magazine-nak. Szerinte a szakirodalom a mérési módszertől függetlenül számos példát hoz a modellek ugrásszerűen javulására.