Cáfolta a DeepMind a "nagyobb jobb" elméletet

Bitport2021.12.22.Cloud & big data

A legújabb kutatások szerint a nyelvi modellek hatékonyságát nem (csak) a modell mérete határozza meg.

A DeepMind szerint, ha elegendő memóriát adnak egy modellhez, az olyan jól teljesít, mint egy 25-ször nagyobb modell, írja a Singularity Hub összefoglalója.

Az OpenAI a még csak másfél éves GPT-3-mal igazolta, hogy egy neurális hálózat méretének és a rajta betanított adatok mennyiségének a növelésével jelentősen lehet növelni a mesterséges intelligencia (MI) teljesítményét a különféle nyelvi feladatokban. A GPT-3-hoz 175 milliárd paraméter használtak, míg elődjéhez, a GPT-2-höz csak 1,5 milliárdot.

Azóta a kutatók alapvetően ezt az elvet követik. A kínaiak csoda MI-je, az idén júniusban bemutatott és több egyetemre is beíratott Wu Dao 2.0 tanításához például 1750 milliárd paramétert használtak. A Wu Dao tehát újabb igazolása volt az elméletnek.

Egyes kutatók szerint viszont ez a megközelítés nem igazán jó. Timnit Gebru, aki tavalyi, elég nagy vihart kavaró elbocsátásáig a Google egyik vezető MI-kutatója volt, például úgy véli, hogy ezek az óriási modellek a méretük és a hozzájuk kapcsolódó hatalmas adatkészlet miatt sokkal átláthatatlanabbak, mint az átlagos neurális hálózatok, pedig már azok is lényegében fekete dobozként működnek. Az etikus MI-vel foglalkozó kutató szerint ekkora modelleknél rendkívül nehéz a torzítások felderítése és mérséklése.

A másik probléma, hogy a modelleknek méretükkel együtt nő a számítási kapacitás iránti igénye. Azaz csak annak lehet MI-modellje, akinek sok pénze is van a hozzá szükséges infrastruktúra kiépítésére.

A DeepMind bemutat egy másik utat

A DeepMind (AlphaGo, AlphaGo Zero, AlphaZero) azonban most felvillantott egy sok szempontból fenntarthatóbb fejlődési irányt. (Attól most tekintsünk el, hogy ezt pont annak a Google-nek az MI-kutató leányvállalata találta ki, amely lapátra tette az etikus MI-ért küzdő Gebrut.)

A DeepMind kutatói először szintén a "méret a lényeg" elvet követték. Gopher nevű modelljük több mint 60 százalékkal nagyobb a GPT-3-nál (kb. 280 milliárd paramétert használ). Utána azonban létrehoztak egy jóval kisebb modellt, ami képes információt keresni egy adatbázisban, és ezáltal hatékonyságban fel tudta venni a versenyt a Gopherrel, de más nyelvi modellekkel is.

A kisebb modell a RETRO (Retrieval-Enhanced Transformer) nevet kapta. A legtöbb nyelvi modellhez használnak transzformer típusú neurális hálót. Ezek a transformerek, melyeket nagy mennyiségű adaton tanítanak, jósolják meg, hogyan kell válaszolni egy ember által feltett kérdésre vagy a kiadott emberi utasításra. A RETRO transzformere azonban nem csak a tanításra támaszkodik: valós időben képes keresni egy hatalmas, 2000 milliárd szövegrészletet tartalmazó adatbázisban.

Hiába használnak a RETRO-hoz mindössze 7 milliárd paramétert, ezzel a csellel sok tesztfeladatnál jobb eredményt adott, mint például az AI21 Labs 178 milliárd paraméterrel dolgozó Jurassic-1 modellje vagy a 280 milliárd paraméteres Gopher.

Nem csak gazdaságosabb, áttekinthetőbb is

Az egy dolog, hogy a kevesebb paraméter miatt csökkenthető a képzési idő. De az igazi nyereség a kutatók szerint az, hogy nyomon követhető, milyen szövegeket használt fel a modell egy-egy feladat megoldásához. Így ugyanis könnyebb a modell tudását újratanítás nélkül frissíteni vagy a torzítások forrásait kiküszöbölni.

A kutatók azt is bizonyították, hogy meglévő transzformereket is át lehet utólagosan alakítani úgy, hogy képesek legyenek adatbázissal együttműködni.

Mint a beszámoló megjegyzi, a RETRO maga is nagy modellnek számít, közel ötször nagyobb, mint a GPT-3 elődje, a GPT-2. És azt sem akadályozza semmi, hogy az érdekelt cégek azzal kísérletezzenek, hogy kombinálják a méretből és a keresésből adódó előnyöket. Azaz sokkal nagyobb adatbázisokat használjanak, mint a DeepMind a RETRO-nál. Azt sem lehet figyelmen kívül hagyni, amit a Gophernél figyeltek meg a kutatók: a modell méretének növelése a logikus gondolkodást és a józan észt mérő feladatokban ugyan nem javította látványosan a teljesítményt, de például az olvasásértésnél és a tényellenőrzésnél igen.

A DeepMind beszámolója a nyelvi modellek skálázhatóságával kapcsolatos kísérletekről itt olvasható.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Az MI általában sokba kerül. De megtérül-e?

Ellentmondásos adatok keringnek arról, hogy megtérülnek-e, és ha igen, mennyi idő alatt az MI-beruházások.

Hirdetés

A kifizetett energia
60%-a elvész, de egy audit feltárja, hol folyik el a pénzünk

A Schneider Electric energiahatékonysági szolgáltatása átfogó megoldást kínál, amely támogatja a cégek energiahatékonyság-növelési programjaik megvalósításában, az iparágban vezető megoldások, szolgáltatások és szakértők segítségével.

A hónap témája

Ember helyett algoritmus? A storage menedzsment forradalma

A vállalati IT-rendszerek egyik legnagyobb kihívása ma már nem a hardver beszerzése vagy a szoftverek integrációja, hanem az üzemeltetés. A modern storage-megoldások válasza erre az automatizáció és a menedzsment egyszerűsítése.

a melléklet támogatója az EURO ONE

Hirdetés

Hatékony adattárolás, biztonságosabb működés: HPE storage az EURO ONE szakértelmével

Az adatmennyiség rohamos növekedése, a kritikus üzleti alkalmazások rendelkezésre állási követelményei és a kiberbiztonsági fenyegetések mind olyan tényezők, amelyek túlmutatnak a hagyományos storage-megoldások képességein.

CIO Podcast

CIO Klub Podcast #61: Az irányítás visszaszerzése

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Az MI általában sokba kerül. De megtérül-e?

Ember helyett algoritmus? A storage menedzsment forradalma

CIO Klub Podcast #61: Az irányítás visszaszerzése

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia