A legújabb kutatások szerint a nyelvi modellek hatékonyságát nem (csak) a modell mérete határozza meg.

A DeepMind szerint, ha elegendő memóriát adnak egy modellhez, az olyan jól teljesít, mint egy 25-ször nagyobb modell, írja a Singularity Hub összefoglalója.

Az OpenAI a még csak másfél éves GPT-3-mal igazolta, hogy egy neurális hálózat méretének és a rajta betanított adatok mennyiségének a növelésével jelentősen lehet növelni a mesterséges intelligencia (MI) teljesítményét a különféle nyelvi feladatokban. A GPT-3-hoz 175 milliárd paraméter használtak, míg elődjéhez, a GPT-2-höz csak 1,5 milliárdot.

Azóta a kutatók alapvetően ezt az elvet követik. A kínaiak csoda MI-je, az idén júniusban bemutatott és több egyetemre is beíratott Wu Dao 2.0 tanításához például 1750 milliárd paramétert használtak. A Wu Dao tehát újabb igazolása volt az elméletnek.

Egyes kutatók szerint viszont ez a megközelítés nem igazán jó. Timnit Gebru, aki tavalyi, elég nagy vihart kavaró elbocsátásáig a Google egyik vezető MI-kutatója volt, például úgy véli, hogy ezek az óriási modellek a méretük és a hozzájuk kapcsolódó hatalmas adatkészlet miatt sokkal átláthatatlanabbak, mint az átlagos neurális hálózatok, pedig már azok is lényegében fekete dobozként működnek. Az etikus MI-vel foglalkozó kutató szerint ekkora modelleknél rendkívül nehéz a torzítások felderítése és mérséklése.

A másik probléma, hogy a modelleknek méretükkel együtt nő a számítási kapacitás iránti igénye. Azaz csak annak lehet MI-modellje, akinek sok pénze is van a hozzá szükséges infrastruktúra kiépítésére.

A DeepMind bemutat egy másik utat

A DeepMind (AlphaGo, AlphaGo Zero, AlphaZero) azonban most felvillantott egy sok szempontból fenntarthatóbb fejlődési irányt. (Attól most tekintsünk el, hogy ezt pont annak a Google-nek az MI-kutató leányvállalata találta ki, amely lapátra tette az etikus MI-ért küzdő Gebrut.)

A DeepMind kutatói először szintén a "méret a lényeg" elvet követték. Gopher nevű modelljük több mint 60 százalékkal nagyobb a GPT-3-nál (kb. 280 milliárd paramétert használ). Utána azonban létrehoztak egy jóval kisebb modellt, ami képes információt keresni egy adatbázisban, és ezáltal hatékonyságban fel tudta venni a versenyt a Gopherrel, de más nyelvi modellekkel is.

A kisebb modell a RETRO (Retrieval-Enhanced Transformer) nevet kapta. A legtöbb nyelvi modellhez használnak transzformer típusú neurális hálót. Ezek a transformerek, melyeket nagy mennyiségű adaton tanítanak, jósolják meg, hogyan kell válaszolni egy ember által feltett kérdésre vagy a kiadott emberi utasításra. A RETRO transzformere azonban nem csak a tanításra támaszkodik: valós időben képes keresni egy hatalmas, 2000 milliárd szövegrészletet tartalmazó adatbázisban.

Hiába használnak a RETRO-hoz mindössze 7 milliárd paramétert, ezzel a csellel sok tesztfeladatnál jobb eredményt adott, mint például az AI21 Labs 178 milliárd paraméterrel dolgozó Jurassic-1 modellje vagy a 280 milliárd paraméteres Gopher.

Nem csak gazdaságosabb, áttekinthetőbb is

Az egy dolog, hogy a kevesebb paraméter miatt csökkenthető a képzési idő. De az igazi nyereség a kutatók szerint az, hogy nyomon követhető, milyen szövegeket használt fel a modell egy-egy feladat megoldásához. Így ugyanis könnyebb a modell tudását újratanítás nélkül frissíteni vagy a torzítások forrásait kiküszöbölni.

A kutatók azt is bizonyították, hogy meglévő transzformereket is át lehet utólagosan alakítani úgy, hogy képesek legyenek adatbázissal együttműködni.

Mint a beszámoló megjegyzi, a RETRO maga is nagy modellnek számít, közel ötször nagyobb, mint a GPT-3 elődje, a GPT-2. És azt sem akadályozza semmi, hogy az érdekelt cégek azzal kísérletezzenek, hogy kombinálják a méretből és a keresésből adódó előnyöket. Azaz sokkal nagyobb adatbázisokat használjanak, mint a DeepMind a RETRO-nál. Azt sem lehet figyelmen kívül hagyni, amit a Gophernél figyeltek meg a kutatók: a modell méretének növelése a logikus gondolkodást és a józan észt mérő feladatokban ugyan nem javította látványosan a teljesítményt, de például az olvasásértésnél és a tényellenőrzésnél igen.

A DeepMind beszámolója a nyelvi modellek skálázhatóságával kapcsolatos kísérletekről itt olvasható.

Cloud & big data

MI-vezérelt embermosógép készül Japánban

A pilótafülkére emlékeztető szerkezet gyors mosó-szárító programot és teljes felfrissülést ígér a felhasználóknak.
 
Ezt már akkor sokan állították, amikor a Watson vagy a DeepMind még legfeljebb érdekes játék volt, mert jó volt kvízben, sakkban vagy góban.
Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.