A legújabb kutatások szerint a nyelvi modellek hatékonyságát nem (csak) a modell mérete határozza meg.
Hirdetés
 

A DeepMind szerint, ha elegendő memóriát adnak egy modellhez, az olyan jól teljesít, mint egy 25-ször nagyobb modell, írja a Singularity Hub összefoglalója.

Az OpenAI a még csak másfél éves GPT-3-mal igazolta, hogy egy neurális hálózat méretének és a rajta betanított adatok mennyiségének a növelésével jelentősen lehet növelni a mesterséges intelligencia (MI) teljesítményét a különféle nyelvi feladatokban. A GPT-3-hoz 175 milliárd paraméter használtak, míg elődjéhez, a GPT-2-höz csak 1,5 milliárdot.

Azóta a kutatók alapvetően ezt az elvet követik. A kínaiak csoda MI-je, az idén júniusban bemutatott és több egyetemre is beíratott Wu Dao 2.0 tanításához például 1750 milliárd paramétert használtak. A Wu Dao tehát újabb igazolása volt az elméletnek.

Egyes kutatók szerint viszont ez a megközelítés nem igazán jó. Timnit Gebru, aki tavalyi, elég nagy vihart kavaró elbocsátásáig a Google egyik vezető MI-kutatója volt, például úgy véli, hogy ezek az óriási modellek a méretük és a hozzájuk kapcsolódó hatalmas adatkészlet miatt sokkal átláthatatlanabbak, mint az átlagos neurális hálózatok, pedig már azok is lényegében fekete dobozként működnek. Az etikus MI-vel foglalkozó kutató szerint ekkora modelleknél rendkívül nehéz a torzítások felderítése és mérséklése.

A másik probléma, hogy a modelleknek méretükkel együtt nő a számítási kapacitás iránti igénye. Azaz csak annak lehet MI-modellje, akinek sok pénze is van a hozzá szükséges infrastruktúra kiépítésére.

A DeepMind bemutat egy másik utat

A DeepMind (AlphaGo, AlphaGo Zero, AlphaZero) azonban most felvillantott egy sok szempontból fenntarthatóbb fejlődési irányt. (Attól most tekintsünk el, hogy ezt pont annak a Google-nek az MI-kutató leányvállalata találta ki, amely lapátra tette az etikus MI-ért küzdő Gebrut.)

A DeepMind kutatói először szintén a "méret a lényeg" elvet követték. Gopher nevű modelljük több mint 60 százalékkal nagyobb a GPT-3-nál (kb. 280 milliárd paramétert használ). Utána azonban létrehoztak egy jóval kisebb modellt, ami képes információt keresni egy adatbázisban, és ezáltal hatékonyságban fel tudta venni a versenyt a Gopherrel, de más nyelvi modellekkel is.

A kisebb modell a RETRO (Retrieval-Enhanced Transformer) nevet kapta. A legtöbb nyelvi modellhez használnak transzformer típusú neurális hálót. Ezek a transformerek, melyeket nagy mennyiségű adaton tanítanak, jósolják meg, hogyan kell válaszolni egy ember által feltett kérdésre vagy a kiadott emberi utasításra. A RETRO transzformere azonban nem csak a tanításra támaszkodik: valós időben képes keresni egy hatalmas, 2000 milliárd szövegrészletet tartalmazó adatbázisban.

Hiába használnak a RETRO-hoz mindössze 7 milliárd paramétert, ezzel a csellel sok tesztfeladatnál jobb eredményt adott, mint például az AI21 Labs 178 milliárd paraméterrel dolgozó Jurassic-1 modellje vagy a 280 milliárd paraméteres Gopher.

Nem csak gazdaságosabb, áttekinthetőbb is

Az egy dolog, hogy a kevesebb paraméter miatt csökkenthető a képzési idő. De az igazi nyereség a kutatók szerint az, hogy nyomon követhető, milyen szövegeket használt fel a modell egy-egy feladat megoldásához. Így ugyanis könnyebb a modell tudását újratanítás nélkül frissíteni vagy a torzítások forrásait kiküszöbölni.

A kutatók azt is bizonyították, hogy meglévő transzformereket is át lehet utólagosan alakítani úgy, hogy képesek legyenek adatbázissal együttműködni.

Mint a beszámoló megjegyzi, a RETRO maga is nagy modellnek számít, közel ötször nagyobb, mint a GPT-3 elődje, a GPT-2. És azt sem akadályozza semmi, hogy az érdekelt cégek azzal kísérletezzenek, hogy kombinálják a méretből és a keresésből adódó előnyöket. Azaz sokkal nagyobb adatbázisokat használjanak, mint a DeepMind a RETRO-nál. Azt sem lehet figyelmen kívül hagyni, amit a Gophernél figyeltek meg a kutatók: a modell méretének növelése a logikus gondolkodást és a józan észt mérő feladatokban ugyan nem javította látványosan a teljesítményt, de például az olvasásértésnél és a tényellenőrzésnél igen.

A DeepMind beszámolója a nyelvi modellek skálázhatóságával kapcsolatos kísérletekről itt olvasható.

Cloud & big data

Mustafa Suleyman másfél évet ad a fehér gallérosoknak az MI-vel szemben

A Microsoft MI-főnöke szerint egy-másfél éven belül a szellemi munkát végzők feladatait is átveszi a mesterséges intelligencia.
 
Hirdetés

Produktivitás mint stratégiai előny: mit csinálnak másként a sikeres cégek?

A META-INF által szervezett Productivity Day 2026 idén a mesterséges intelligencia és a vállalati produktivitás kapcsolatát helyezi fókuszba. Az esemény középpontjában a META-INF nagyszabású produktivitási kutatásának bemutatása áll, amely átfogó képet nyújt a magyar vállalatok hatékonyságáról és működési kihívásairól.

Vezetői példamutatás és megfelelő oktatás, vállalatikultúra-váltás nélkül gyakorlatilag lehetetlen adatvezérelt működést bevezetni. Cikkünk nemcsak a buktatókról, hanem azok elkerülésének módjairól is szól.

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!

Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.

2026.03.10. UP Rendezvénytér

RÉSZLETEK »

A PMI Budapest, Magyar Tagozat májusban rendezi meg az Art of Projects szakmai konferenciát. A rendezvény kapcsán rövid írásokban foglalkozunk a projektmenedzsment szakma újdonságaival. Az első téma: mit gondolunk ma a projekttervezésről?

Régen minden jobb volt? A VMware licencelési változásai

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.