Olyan nagy nyelvi modellt találtak ki, ami minden eddiginél hatékonyabban gazdálkodik az erőforrásokkal.
Hirdetés
 

Egy viszonylag ismeretlen kínai startup kérdőjelezi meg az USA vezető szerepét a mesterséges intelligencia területén. A DeepSeek nevű cég a múlt héten tette közzé legújabb nagy nyelvi modelljét (large language models, LLM), amely úgy hozza az OpenAI és a Meta LLM-jeinek teljesítményét, hogy azoknál sokkal kevesebb hardveres erőforrást használ.

Konkrétabban: a modell képzéséhez sokkal kevesebb Nvidia GPU-ra van szükség, mint az amerikai konkurenseinek. Ez pedig megkérdőjelezi azokat a gigantikus infrastrukturális beruházásokat, melyek többek között Donald Trump közelmúltban beiktatott amerikai elnök is tervez az OpenAI, az Oracle és a Softbank közreműködésével. De kétségessé teszi a Szilícium-völgy eddigi és tervezett beruházásainak megtérülését is.

Mint a Financial Times írja, a kínai vállalat iOS-re készített MI-asszisztense a hétvégén a letöltési lista élére rakétázott az USA-ban. Berobbanása megfektette azoknak a cégeknek az árfolyamát, melyek eddig épp az MI-fejlesztéseiknek köszönhetően erősödtek. Jelentősen esett az Nvidia, és kisebb mértékben a Microsoft és a Meta árfolyama. A negatív hangulatot megérezte a csipgyártó-berendezéseket gyártó ASML, valamint olyan, az MI-ökoszisztémához fontos infrastrukturális elemeket szállító cégek is, mint a Siemens Energy vagy a Schneider Electric.

Minden tud, mint a nagyok, csak sokkal olcsóbban

A Forbes hétvégén közzétett elemzése szerint a startup legfrissebb modelljének képzése töredékébe került, mint pl. az OpenAI modelljeié. A lap szerint ez még akkor is drámai hatással lehet a piacra, ha a kínai cég által közölt 5,5 millió dolláros költség csak egy része lehet a teljes képzési költségnek. (A Forbes azt a lehetőséget sem veti el, hogy modell kiadását szándékosan időzítettek Donald Trump beiktatásának közelébe, hogy jobban kihangsúlyozhassák: MI-fejlesztésben már nem az USA diktálja az iramot.)

Szakértők szerint több kulcseleme van a DeepSeek sikerének. A konkurensekkel ellentétben modelljük tisztán megerősítő tanulást (reinforcement learning) használ, azaz próbálgatással, saját hibáit korrigálva, algoritmikus jutalmak révén tanul. Ez kifinomultabb következtetési képességeket eredményez, és a modell az új helyzetekhez is hatékonyabban alkalmazkodik.

Szintén csökkenti a költségeket az ún. MoE (Mixture-of-Experts) architektúra. Ez azt jelenti, hogy adott feladathoz csak a paraméterek egy kis részét aktiválják. Ezt úgy kell elképzelni, mint amikor egy összetett problémát részekre bontanak, és mindegyik részlettel csak az adott terület szakértői foglalkoznak.

Az adatfeldolgozási képességet javítja az ún. MLA (Multi-Head Latent Attention) eljárás, amely árnyalt kapcsolatokat azonosít, és egyszerre több bemeneti szempontot kezel, ami segít a modellnek az információ átfogóbb "megértésében". Fontos szerepet játszik a költségcsökkentésben az ún. desztillációs technika, amely a nagyobb modellek tudását és képességeit ülteti át kisebb, hatékonyabb modellekbe. Ezt úgy kell elképzelni, mint amikor egy oktató úgy adja át tudását tanulójának, hogy utóbbi hasonló profizmussal, de kevesebb tapasztalattal (jelen esetben erőforrással) is el tudja végezni ugyanazt azt a munkát, amit mestere.

Mindezeket a kínai startup megfejelte azzal, hogy API-ját lényegesen olcsóbban kínálja, mint a versenytársai. Millió bemeneti tokenenként 0,55 dollárt, míg a kimenetért (szintén millió tokenenként) 2,19 dollárt kér. Ugyanez az OpenAI-nál 15, illetve 60 dollár. Ráadásul a kínaiak modellje nyílt forráskódú, ami jelentős licencdíj-megtakarítást eredményez, és a közösségi erőforrásokat is bevonja a fejlesztésbe. (A technikai részletekben itt lehet elmélyülni.)

Ezer milliárd dollárnyi befektetés megtérülése kérdéses

A Financial Times a svájci UBS befektetési bankra hivatkozva azt írja, hogy tavaly a nagy amerikai technológiai vállalatok kb. 224 milliárd dollárt költöttek MI-fejlesztésekre, idén pedig a beruházások volumene elérheti a 280 milliárd dollárt. Mindehhez jön az OpenAI, az Oracle és a SoftBank 500 milliárdja, amit négy év alatt akarnak elkölteni az amerikai MI-infrastruktúra fejlesztésére.

A DeepSeek új modellje azonban erősen megkérdőjelezi mindezeknek a beruházásoknak az indokoltságát. Egy tokiói alapkezelő az nyilatkozta az üzleti lapnak, hogy a befektetők gyorsan lereagálják, hogy olcsóbban is lehet MI-t építeni, mint eddig gondolták.

Piaci hírek

Itthon is vehetünk már humanoid robotot

A tavaly bemutatott Unitree G1 humanoid robotot alapkiszerelésben bruttó szűk 12 millió forintért kínálja a hazai forgalmazó.
 
A szoftveresen definiált WAN egyik fontos üzenete, hogy a biztonság és a hálózatmenedzsment magasabb fokú integrációjával jelentősen növelhető egy szervezet kiberbiztonsági szintje.

a melléklet támogatója a Yettel

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.