Számos benchmark szerint akár az OpenAI o1 korábbi verziójával is versenyképes, ráadásul valóban nyílt forráskódú az a mesterségesintelligencia-modell, amit múlt hét pénteken adott ki a Berkeley Egyetem Sky Computing Lab egy kutatócsoportja. A laborban működő NovaSky fejlesztőcsapat a GitHubon tette közzé a 32 milliárd paraméterrel dolgozó Sky-T1-32B-Preview-t a képzési kóddal és a képzéshez használt adathalmazzal egyetemben. Blogjukban részletes leírást is közöltek a modellről.
A TechCrunch szerint a Sky-T1 az első valóban nyílt forráskódú érvelésre képes (meg tud oldani többlépcsős problémákat lépésről lépésre) modell, amely replikálható is.
Zsebpénznyi összegből, szintetikus adatokkal
És ha ez még nem lenne elég: a modell úgy ért el jó benchmark-eredményeket, hogy képzésére alig 450 dollárt költöttek. Így a fejlesztők szerint sikerült bizonyítaniuk, hogy lehet olcsón reprodukálni magas szintű érvelési képességeket. A szerény képzési költség önmagában is figyelemre méltó eredmény. Nemrég még egy hasonló teljesítményű modell betanítása dollármilliókba került.
Az egyik jelentős költségtétel a képzési adatkészlet. Ezen a téren már korábban is voltak eredmények: a Writer nevű MI-cég, melynek eszközeit többek között az Intuit, az Uber, a L'Oreal és az Accenture is használja, tavaly októberben kiadott Palmyra X 004 modelljének képzési költségét 700 ezer dollár alá vitte azzal, hogy többségében szintetikus adatokat használt.
Mint a fejlesztők blogján olvasható, a képzési adatok előállításához az Alibaba szintén nyílt forráskódú modelljét, az OpenAI o1-preview konkurensének szánt QwQ-32B-Preview-t használták. Utána pedig az OpenAI GPT-4o-minijével alakították át az adatokat feldolgozhatóbb formátumúra.
A képzés körülbelül 19 órát vett igénybe egy 8 darab Nvidia H100 GPU-t tartalmazó konfiguráción. Az eredmény pedig impozáns, legalábbis egyes területeken: a fejlesztők mérései szerint jobban teljesít MATH500 feladatsorok megoldásában, mint az o1 korai előzetes verziója, de a LiveCodeBench-problémáknál is hatékonyabb. A GPQA (Graduate-Level Google-Proof Q&A Benchmark) mérésekben viszont gyengébb. A teszt fizikával, kémiával és biológiával kapcsolatos tudást-képességeket mér, és feladatainak megoldásához nagyjából PhD szintű tudás szükségeltetik.
Továbbra is az OpenAI a mérce
Bár a modell nagyon ígéretes, a piac elsősorban a konkurenseihez képest szinte végtelen erőforrással gazdálkodó OpenAI-ra figyel. Sam Altmanék tavaly év végén jelentették be az o3 modellt, amely – most már becsszó – emberi szintű problémamegoldásra képes. Így azzal a taktikával nyilván nehéz a kanyarban leelőzni az OpenAI-t, hogy valaki tökéletesebben és olcsóbban képes megcsinálni, amin a piacvezető már rég túllépett.
Mindezzel együtt a Sky-T1 (és a többi hasonló modell) komoly figyelmeztetés is lehet az erőforrás-pazarló fejlesztéseknek. 2022-ben a CIO Budapesten tartott előadása után Schin Lotár, az OTP bank MI-fejlesztéseket irányító vezetője egy hallgatói kérdésre válaszolva arról beszélt, hogy az MI-fejlesztés olyan területe az informatikának, amely akár egyik napról a másikra is teljesen más (technológiai) irányt vehet. Egy ilyen irányváltás pedig adott esetben erősen leértékelheti azokat a beruházásokat, melyek egy másik fejlesztési irányhoz igazodtak.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak