Az OpenAI hangyabokányival közelebb jutott a szuperintelligenciához

Bitport2024.09.13.Cloud & big data

Elérhető a Strawberry projekt eredménye: o1-nek hívják, és képes bonyolultabb feladatok megoldására, mélyebb összefüggések feltárására – állítja az OpenAI.

Megérkezett az OpenAI szupertitkos projektjének, a Strawberrynek az eredménye: nyilvánosan elérhető az OpenAI o1 preview-ja két változatban. Azt, hogy az új modell a Strawberry projekt része, a cég is megerősítette.

Mint az OpenAI hivatalos blogján megjelent bejegyzéséből kiderül, nem egy modellről, hanem egy modellsorozat első eleméről van szó. A sorozat tagjai a cég szerint a korábbi modellekhez képest már valóban képesek lesznek összetett tudományos, matematikai vagy épp kódolási problémák megoldására. A modellsorozat a ChatGPT-ben, valamint API-n keresztül érhető el.

Egy ismert módszert sikerült automatizálni

Az, hogy az OpenAI új megközelítést alkalmazó modelleken dolgozik, nyár óta nem titok. Akkor azonban csupán annyi szivárgott ki, hogy a Strawberry modelleknél olyan új tanítási módszert alkalmaznak, amely "drámaian javítja majd az MI-modellek érvelési képességeit". Érvelés alatt ebben az esetben azt kell érteni, hogy az MI képes tervezni, leképezni a fizikai világ működését, és akár komoly kihívást jelentő, többlépcsős problémákat is meg tud oldani.

Az OpenAI azzal illusztrálta az o1 képességeit, hogy a modell 83 százalékos eredménnyel oldotta meg a Nemzetközi Matematikai Olimpia kvalifikációs feladatsorát, míg a GPT-4o megoldása mindössze 13 százalékos lett. A modell emellett drámaian javította a gépi teljesítményét kompetitív programozásban, míg a természettudományos problémák megoldását vizsgáló benchmark szerint jobban teljesít, mint egy PhD fokozattal rendelkező ember. (A teszteredményeket külön bejegyzésben részletezte a cég.)

A javulást egy ún. "gondolatláncolat" (chain-of-thought) érvelésnek nevezett technika alkalmazásával tudták elérni. A módszerről annyit árultak el, hogy a modell az összetett problémákat kisebb logikai lépésekre lebontva oldja meg. Hasonlóan ahhoz, amikor az ember sokáig gondolkodik, mielőtt megválaszolna egy nehéz kérdést, az o1 is gondolatláncolat segítségével próbálja megoldani a problémákat, azaz képes arra, hogy egyszerűbb lépésekre bontson komplex problémákat. Eközben megerősítő tanulással folyamatosan finomítja gondolatláncolatát, valamint a probléma megoldásánál alkalmazott stratégiákat. Eközben felismeri és kijavítja, amennyiben a megoldás során hibázott, ha pedig az alkalmazott stratégia nem működik, újabb megközelítést próbál ki.

Azt már korábban is tudták, hogy az MI-modellek teljesítménye javul az összetett problémák esetében, ha a feladatokat elemeire bontják, valamint megerősítő képzési módszert alkalmaznak. Eddig azonban ehhez emberi beavatkozásra volt szükség, míg az OpenAI megoldotta, hogy ezt a modellek autonóm módon elvégezzék.

Két csomag érkezik

A cég azt ígéri, hogy az új modellek a biztonság terén is hoznak előrelépést. Kidolgoztak egy új biztonsági képzési megközelítést, amely a modellek érvelési képességeit kihasználva éri el a biztonsági irányelvek betartását. A tesztek szerint a felhasználóknak sokkal kisebb esélyük van megkerülni a biztonsági irányelveket, mint a korábbi modelleknél. Az ezt vizsgáló legkeményebb jailbreaking teszten a GPT-4o mindössze 22 pontot ért el egy 100-as skálán, míg az o1 preview-ja 84-et.

A modellt két változatban adják ki. A teljes o1 mellett lesz egy o1-mini is. Utóbbit fejlesztőknek szánják. Mivel a modell alkalmas komplex kód generálására és hibakeresésére, elkészítették egy kisebb-gyorsabb-olcsóbb (az árazásról itt lehet tájékozódni) változatát, amely kizárólag kódolási problémák megoldására használható.

_{(Illusztráció: OpenAI)}

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Mekkora felfordulást okoz a ChatGPT Atlas a webböngészők piacán?

A két megcélzott konkurensnek, a Google Chrome-nak és a Microsoft Edge-nek is van MI-segédje.

Hirdetés

Az end-to-end védelmeké a jövő

A kódbiztonság integrálásával új fejlődési szakaszukba léptek a felhős védelmi platformok. Werner Obringot, a Clico Hungary cloud security architektjét kérdeztük a miértekről és hogyanokról.

A hónap témája

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

A biztonsági megoldásszállítók érthető módon egy irányba mozdulnak, hiszen ugyanazoknak a támadásoknak az ellenszerét keresik. Megoldási javaslataikban sokszor csak árnyalatnyiak a különbségek, ami egyszerre könnyíti és nehezíti a választást.

a melléklet támogatója a Clico Hungary

CIO Podcast

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

CIO Podcast #63: A stressz, a felső vezetők és két perc néma csend

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Mekkora felfordulást okoz a ChatGPT Atlas a webböngészők piacán?

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia