A legújabb kutatások szerint a nyelvi modellek hatékonyságát nem (csak) a modell mérete határozza meg.

A DeepMind szerint, ha elegendő memóriát adnak egy modellhez, az olyan jól teljesít, mint egy 25-ször nagyobb modell, írja a Singularity Hub összefoglalója.

Az OpenAI a még csak másfél éves GPT-3-mal igazolta, hogy egy neurális hálózat méretének és a rajta betanított adatok mennyiségének a növelésével jelentősen lehet növelni a mesterséges intelligencia (MI) teljesítményét a különféle nyelvi feladatokban. A GPT-3-hoz 175 milliárd paraméter használtak, míg elődjéhez, a GPT-2-höz csak 1,5 milliárdot.

Azóta a kutatók alapvetően ezt az elvet követik. A kínaiak csoda MI-je, az idén júniusban bemutatott és több egyetemre is beíratott Wu Dao 2.0 tanításához például 1750 milliárd paramétert használtak. A Wu Dao tehát újabb igazolása volt az elméletnek.

Egyes kutatók szerint viszont ez a megközelítés nem igazán jó. Timnit Gebru, aki tavalyi, elég nagy vihart kavaró elbocsátásáig a Google egyik vezető MI-kutatója volt, például úgy véli, hogy ezek az óriási modellek a méretük és a hozzájuk kapcsolódó hatalmas adatkészlet miatt sokkal átláthatatlanabbak, mint az átlagos neurális hálózatok, pedig már azok is lényegében fekete dobozként működnek. Az etikus MI-vel foglalkozó kutató szerint ekkora modelleknél rendkívül nehéz a torzítások felderítése és mérséklése.

A másik probléma, hogy a modelleknek méretükkel együtt nő a számítási kapacitás iránti igénye. Azaz csak annak lehet MI-modellje, akinek sok pénze is van a hozzá szükséges infrastruktúra kiépítésére.

A DeepMind bemutat egy másik utat

A DeepMind (AlphaGo, AlphaGo Zero, AlphaZero) azonban most felvillantott egy sok szempontból fenntarthatóbb fejlődési irányt. (Attól most tekintsünk el, hogy ezt pont annak a Google-nek az MI-kutató leányvállalata találta ki, amely lapátra tette az etikus MI-ért küzdő Gebrut.)

A DeepMind kutatói először szintén a "méret a lényeg" elvet követték. Gopher nevű modelljük több mint 60 százalékkal nagyobb a GPT-3-nál (kb. 280 milliárd paramétert használ). Utána azonban létrehoztak egy jóval kisebb modellt, ami képes információt keresni egy adatbázisban, és ezáltal hatékonyságban fel tudta venni a versenyt a Gopherrel, de más nyelvi modellekkel is.

A kisebb modell a RETRO (Retrieval-Enhanced Transformer) nevet kapta. A legtöbb nyelvi modellhez használnak transzformer típusú neurális hálót. Ezek a transformerek, melyeket nagy mennyiségű adaton tanítanak, jósolják meg, hogyan kell válaszolni egy ember által feltett kérdésre vagy a kiadott emberi utasításra. A RETRO transzformere azonban nem csak a tanításra támaszkodik: valós időben képes keresni egy hatalmas, 2000 milliárd szövegrészletet tartalmazó adatbázisban.

Hiába használnak a RETRO-hoz mindössze 7 milliárd paramétert, ezzel a csellel sok tesztfeladatnál jobb eredményt adott, mint például az AI21 Labs 178 milliárd paraméterrel dolgozó Jurassic-1 modellje vagy a 280 milliárd paraméteres Gopher.

Nem csak gazdaságosabb, áttekinthetőbb is

Az egy dolog, hogy a kevesebb paraméter miatt csökkenthető a képzési idő. De az igazi nyereség a kutatók szerint az, hogy nyomon követhető, milyen szövegeket használt fel a modell egy-egy feladat megoldásához. Így ugyanis könnyebb a modell tudását újratanítás nélkül frissíteni vagy a torzítások forrásait kiküszöbölni.

A kutatók azt is bizonyították, hogy meglévő transzformereket is át lehet utólagosan alakítani úgy, hogy képesek legyenek adatbázissal együttműködni.

Mint a beszámoló megjegyzi, a RETRO maga is nagy modellnek számít, közel ötször nagyobb, mint a GPT-3 elődje, a GPT-2. És azt sem akadályozza semmi, hogy az érdekelt cégek azzal kísérletezzenek, hogy kombinálják a méretből és a keresésből adódó előnyöket. Azaz sokkal nagyobb adatbázisokat használjanak, mint a DeepMind a RETRO-nál. Azt sem lehet figyelmen kívül hagyni, amit a Gophernél figyeltek meg a kutatók: a modell méretének növelése a logikus gondolkodást és a józan észt mérő feladatokban ugyan nem javította látványosan a teljesítményt, de például az olvasásértésnél és a tényellenőrzésnél igen.

A DeepMind beszámolója a nyelvi modellek skálázhatóságával kapcsolatos kísérletekről itt olvasható.

Cloud & big data

Spanyol tudósok: a túlóra nem hogy káros, hanem egyenesen építő

Ha angol tudósok jöttek volna ezzel, meg sem lepődnénk. De épp a szieszta hagyományát mind a mai napig ápoló spanyolok?!
 
Hirdetés

Hazánk régiós SolarWinds-központ lett

A SolarWinds és a RelNet megállapodása révén utóbbi magas színvonalú szolgáltatásokat nyújt régiónkban a SolarWinds viszonteladói és ügyfelei számára.

Manufacture IT

Az 5G legnagyobb nyertesei az ipari vállalkozások

MEGNÉZEM »

a melléklet támogatója a Vodafone

Igen, ahogy mindenki mondja: sokba, nagyon sokba. De közel sem csak a fizetése miatt. A költségekhez hozzá kell számolni a növekvő kiválasztási költségeket – és a magas fluktuációt.

a melléklet támogatója a Mndwrk

A KPMG immár 22. alkalommal kiadott CIO Survey jelentése szerint idén az informatikai vezetők leginkább a digitalizációra, a biztonságra és a szoftverszolgáltatásokra koncentráltak.

Használtszoftver-kereskedelem a Brexit után

Az EU Tanácsa szerint összeegyeztethető a backdoor és a biztonság. Az ötlet alapjaiban hibás. Pfeiffer Szilárd fejlesztő, IT-biztonsági szakértő írása.
Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizenegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2021 Bitport.hu Média Kft. Minden jog fenntartva.