A DeepMind szerint, ha elegendő memóriát adnak egy modellhez, az olyan jól teljesít, mint egy 25-ször nagyobb modell, írja a Singularity Hub összefoglalója.
Az OpenAI a még csak másfél éves GPT-3-mal igazolta, hogy egy neurális hálózat méretének és a rajta betanított adatok mennyiségének a növelésével jelentősen lehet növelni a mesterséges intelligencia (MI) teljesítményét a különféle nyelvi feladatokban. A GPT-3-hoz 175 milliárd paraméter használtak, míg elődjéhez, a GPT-2-höz csak 1,5 milliárdot.
Azóta a kutatók alapvetően ezt az elvet követik. A kínaiak csoda MI-je, az idén júniusban bemutatott és több egyetemre is beíratott Wu Dao 2.0 tanításához például 1750 milliárd paramétert használtak. A Wu Dao tehát újabb igazolása volt az elméletnek.
Egyes kutatók szerint viszont ez a megközelítés nem igazán jó. Timnit Gebru, aki tavalyi, elég nagy vihart kavaró elbocsátásáig a Google egyik vezető MI-kutatója volt, például úgy véli, hogy ezek az óriási modellek a méretük és a hozzájuk kapcsolódó hatalmas adatkészlet miatt sokkal átláthatatlanabbak, mint az átlagos neurális hálózatok, pedig már azok is lényegében fekete dobozként működnek. Az etikus MI-vel foglalkozó kutató szerint ekkora modelleknél rendkívül nehéz a torzítások felderítése és mérséklése.
A másik probléma, hogy a modelleknek méretükkel együtt nő a számítási kapacitás iránti igénye. Azaz csak annak lehet MI-modellje, akinek sok pénze is van a hozzá szükséges infrastruktúra kiépítésére.
A DeepMind bemutat egy másik utat
A DeepMind (AlphaGo, AlphaGo Zero, AlphaZero) azonban most felvillantott egy sok szempontból fenntarthatóbb fejlődési irányt. (Attól most tekintsünk el, hogy ezt pont annak a Google-nek az MI-kutató leányvállalata találta ki, amely lapátra tette az etikus MI-ért küzdő Gebrut.)
A DeepMind kutatói először szintén a "méret a lényeg" elvet követték. Gopher nevű modelljük több mint 60 százalékkal nagyobb a GPT-3-nál (kb. 280 milliárd paramétert használ). Utána azonban létrehoztak egy jóval kisebb modellt, ami képes információt keresni egy adatbázisban, és ezáltal hatékonyságban fel tudta venni a versenyt a Gopherrel, de más nyelvi modellekkel is.
A kisebb modell a RETRO (Retrieval-Enhanced Transformer) nevet kapta. A legtöbb nyelvi modellhez használnak transzformer típusú neurális hálót. Ezek a transformerek, melyeket nagy mennyiségű adaton tanítanak, jósolják meg, hogyan kell válaszolni egy ember által feltett kérdésre vagy a kiadott emberi utasításra. A RETRO transzformere azonban nem csak a tanításra támaszkodik: valós időben képes keresni egy hatalmas, 2000 milliárd szövegrészletet tartalmazó adatbázisban.
Hiába használnak a RETRO-hoz mindössze 7 milliárd paramétert, ezzel a csellel sok tesztfeladatnál jobb eredményt adott, mint például az AI21 Labs 178 milliárd paraméterrel dolgozó Jurassic-1 modellje vagy a 280 milliárd paraméteres Gopher.
Nem csak gazdaságosabb, áttekinthetőbb is
Az egy dolog, hogy a kevesebb paraméter miatt csökkenthető a képzési idő. De az igazi nyereség a kutatók szerint az, hogy nyomon követhető, milyen szövegeket használt fel a modell egy-egy feladat megoldásához. Így ugyanis könnyebb a modell tudását újratanítás nélkül frissíteni vagy a torzítások forrásait kiküszöbölni.
A kutatók azt is bizonyították, hogy meglévő transzformereket is át lehet utólagosan alakítani úgy, hogy képesek legyenek adatbázissal együttműködni.
Mint a beszámoló megjegyzi, a RETRO maga is nagy modellnek számít, közel ötször nagyobb, mint a GPT-3 elődje, a GPT-2. És azt sem akadályozza semmi, hogy az érdekelt cégek azzal kísérletezzenek, hogy kombinálják a méretből és a keresésből adódó előnyöket. Azaz sokkal nagyobb adatbázisokat használjanak, mint a DeepMind a RETRO-nál. Azt sem lehet figyelmen kívül hagyni, amit a Gophernél figyeltek meg a kutatók: a modell méretének növelése a logikus gondolkodást és a józan észt mérő feladatokban ugyan nem javította látványosan a teljesítményt, de például az olvasásértésnél és a tényellenőrzésnél igen.
A DeepMind beszámolója a nyelvi modellek skálázhatóságával kapcsolatos kísérletekről itt olvasható.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak