Megérkezett az OpenAI szupertitkos projektjének, a Strawberrynek az eredménye: nyilvánosan elérhető az OpenAI o1 preview-ja két változatban. Azt, hogy az új modell a Strawberry projekt része, a cég is megerősítette.
Mint az OpenAI hivatalos blogján megjelent bejegyzéséből kiderül, nem egy modellről, hanem egy modellsorozat első eleméről van szó. A sorozat tagjai a cég szerint a korábbi modellekhez képest már valóban képesek lesznek összetett tudományos, matematikai vagy épp kódolási problémák megoldására. A modellsorozat a ChatGPT-ben, valamint API-n keresztül érhető el.
Egy ismert módszert sikerült automatizálni
Az, hogy az OpenAI új megközelítést alkalmazó modelleken dolgozik, nyár óta nem titok. Akkor azonban csupán annyi szivárgott ki, hogy a Strawberry modelleknél olyan új tanítási módszert alkalmaznak, amely "drámaian javítja majd az MI-modellek érvelési képességeit". Érvelés alatt ebben az esetben azt kell érteni, hogy az MI képes tervezni, leképezni a fizikai világ működését, és akár komoly kihívást jelentő, többlépcsős problémákat is meg tud oldani.
Az OpenAI azzal illusztrálta az o1 képességeit, hogy a modell 83 százalékos eredménnyel oldotta meg a Nemzetközi Matematikai Olimpia kvalifikációs feladatsorát, míg a GPT-4o megoldása mindössze 13 százalékos lett. A modell emellett drámaian javította a gépi teljesítményét kompetitív programozásban, míg a természettudományos problémák megoldását vizsgáló benchmark szerint jobban teljesít, mint egy PhD fokozattal rendelkező ember. (A teszteredményeket külön bejegyzésben részletezte a cég.)
A javulást egy ún. "gondolatláncolat" (chain-of-thought) érvelésnek nevezett technika alkalmazásával tudták elérni. A módszerről annyit árultak el, hogy a modell az összetett problémákat kisebb logikai lépésekre lebontva oldja meg. Hasonlóan ahhoz, amikor az ember sokáig gondolkodik, mielőtt megválaszolna egy nehéz kérdést, az o1 is gondolatláncolat segítségével próbálja megoldani a problémákat, azaz képes arra, hogy egyszerűbb lépésekre bontson komplex problémákat. Eközben megerősítő tanulással folyamatosan finomítja gondolatláncolatát, valamint a probléma megoldásánál alkalmazott stratégiákat. Eközben felismeri és kijavítja, amennyiben a megoldás során hibázott, ha pedig az alkalmazott stratégia nem működik, újabb megközelítést próbál ki.
Azt már korábban is tudták, hogy az MI-modellek teljesítménye javul az összetett problémák esetében, ha a feladatokat elemeire bontják, valamint megerősítő képzési módszert alkalmaznak. Eddig azonban ehhez emberi beavatkozásra volt szükség, míg az OpenAI megoldotta, hogy ezt a modellek autonóm módon elvégezzék.
Két csomag érkezik
A cég azt ígéri, hogy az új modellek a biztonság terén is hoznak előrelépést. Kidolgoztak egy új biztonsági képzési megközelítést, amely a modellek érvelési képességeit kihasználva éri el a biztonsági irányelvek betartását. A tesztek szerint a felhasználóknak sokkal kisebb esélyük van megkerülni a biztonsági irányelveket, mint a korábbi modelleknél. Az ezt vizsgáló legkeményebb jailbreaking teszten a GPT-4o mindössze 22 pontot ért el egy 100-as skálán, míg az o1 preview-ja 84-et.
A modellt két változatban adják ki. A teljes o1 mellett lesz egy o1-mini is. Utóbbit fejlesztőknek szánják. Mivel a modell alkalmas komplex kód generálására és hibakeresésére, elkészítették egy kisebb-gyorsabb-olcsóbb (az árazásról itt lehet tájékozódni) változatát, amely kizárólag kódolási problémák megoldására használható.
(Illusztráció: OpenAI)
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak