Előzetes formában szeptember óta, széles körben, előfizetéses megoldásként pedig alig több mint két hete használható az o1, ami az OpenAI korábban szupertitkosként kezelt projektjének, a Strawberrynek az eredménye. Ennek fényében érdemes ízlelgetni a hírt, miszerint már túl is vagyunk a nagy nyelvi modell új változatának bemutatásán.
A vállalat már az o1 debütálásakor világossá tette: nem egyetlen modellről, hanem egy modellsorozat első eleméről van szó. A sorozat tagjai a cég reményei szerint a korábbi modellekhez képest már valóban képesek lesznek összetett tudományos, matematikai vagy épp kódolási problémák megoldására.
Az o1-et rögtön az o3 követi, amit a cég vezérigazgatója, Sam Altman viccesen azzal magyarázott az alábbi videóban, hogy egyrészt nem akartak bekavarni a Telefónicának (amely az O2 távközlési brand tulajdonosa), másrészt az OpenAI amúgy is termékei csapnivalóan gyenge elnevezéséről ismert.
Az szinte említésre sem érdemes, hogy az új generáció a szokásos banchmarkok tekintetében magabiztosan veri a korábbi modelleket. A cég saját mérései szerint a nagy hagyományokkal rendelkező amerikai meghívásos matematika verseny (AIME) feladatsorát az o3 96,7 százalékos eredménnyel tudta le, miközben az o1 ugyanebben csak 83,3 százalékra volt képes.
Algoritmusára talált az emberi képességekre kihegyezett teszt
Az o3 annyira jól vizsgázott, hogy az OpenAI "benevezte" egy különleges tesztre is. A nonprofit ARC Prize által készített ARC-AGI kifejezetten az algoritmusok intuíciós és tanulási képességét igyekszik mérni. A szervezet szerint amennyiben egy MI-rendszer képes lesz abszolválni kihívásukat, az azt jelenti, hogy tettünk egy nagy lépést az általános mesterséges intelligencia elérése felé. Az ARC-AGI által jó magasra tett lécet 2019-es indulása óta egyetlen algoritmus sem volt képes megugrani.
Pédául a képen látható feladat egy embernek nem jelent különösebb gondot: ösztönösen ráérez arra, hogy a megoldás a szabálytalan alakzatok négyzetté alakítása egy-egy kisebb sötét négyzet segítségével. Mindez azonban a hagyományos értelemben vett gondolkodásra, intuícióra nem képes MI-modellek számára egyáltalán nem triviális.
Ehhez képest impresszív, hogy a takaréklángra állított o3 is képes volt 75,7 százalékra, míg a teljes gőzzel működő verzió 87,5 százalékot ért el. A teszt készítő egyébként a 85 százalékos szintet adták meg az emberi teljesítmény küszöbértékének, amit a nagy teljesítményre állított o3 simán megugrott.
Kockázatok és mellékhatások
Az új generáció képességei egyelőre nem próbálhatók ki nyilvánosan. Az o3-at első körben kutatók számára teszi elérhetővé az OpenAI, hogy a modell használatából eredő biztonsági kockázatokat fel lehessen mérni, illetve ennek alapján a szükséges módosításokat el lehessen végezni a rendszeren.
A tervek szerint a teljes értékű o3 megjelenése előtt nem túl sokkal, már január végén szélesebb körben használható lesz az o3-mini. Ez egy fékezett habzású, több fokozatban használható változat, ami ugyan nem tud feltétlenül nagyon összetett kérdésekre válaszolni, de az egyszerűbb feladatokat ugyanúgy képes megoldani, mint a nagyobb testvére – csak éppen kevesebb számítással (azaz költséggel).
Azért mielőtt nagyon izgalomba jönnénk, érdemes megjegyezni, hogy a tapasztalatok alapján a PR-anyagok és marketingfilmek sugallta álomvilágot rendszerint összepiszkolja, amikor szembe jön a kiábrándító, sőt olykor egyenesen riasztó valóság.
Felhőbe vezető út hazai szakértelemmel
Robusztus műszaki háttér, korszerű technológia és a felhasználóbarát kezelhetőség. A Flex Cloudhoz nem kell nagy IT-csapat, csak egy elhatározás és pár kattintás.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak