El az útból! Érkezik az OpenAI legújabb üdvöskéje

Bitport2024.12.21.Cloud & big data

Ha van is fék az MI-vonaton, azt senki nem akarja használni. A ChatGPT fejlesztője az emberi szintű problémamegoldásra képes o3 modell beharangozásával zárta az évet.

Előzetes formában szeptember óta, széles körben, előfizetéses megoldásként pedig alig több mint két hete használható az o1, ami az OpenAI korábban szupertitkosként kezelt projektjének, a Strawberrynek az eredménye. Ennek fényében érdemes ízlelgetni a hírt, miszerint már túl is vagyunk a nagy nyelvi modell új változatának bemutatásán.

A vállalat már az o1 debütálásakor világossá tette: nem egyetlen modellről, hanem egy modellsorozat első eleméről van szó. A sorozat tagjai a cég reményei szerint a korábbi modellekhez képest már valóban képesek lesznek összetett tudományos, matematikai vagy épp kódolási problémák megoldására.

Az o1-et rögtön az o3 követi, amit a cég vezérigazgatója, Sam Altman viccesen azzal magyarázott az alábbi videóban, hogy egyrészt nem akartak bekavarni a Telefónicának (amely az O2 távközlési brand tulajdonosa), másrészt az OpenAI amúgy is termékei csapnivalóan gyenge elnevezéséről ismert.

Az szinte említésre sem érdemes, hogy az új generáció a szokásos banchmarkok tekintetében magabiztosan veri a korábbi modelleket. A cég saját mérései szerint a nagy hagyományokkal rendelkező amerikai meghívásos matematika verseny (AIME) feladatsorát az o3 96,7 százalékos eredménnyel tudta le, miközben az o1 ugyanebben csak 83,3 százalékra volt képes.

Algoritmusára talált az emberi képességekre kihegyezett teszt

Az o3 annyira jól vizsgázott, hogy az OpenAI "benevezte" egy különleges tesztre is. A nonprofit ARC Prize által készített ARC-AGI kifejezetten az algoritmusok intuíciós és tanulási képességét igyekszik mérni. A szervezet szerint amennyiben egy MI-rendszer képes lesz abszolválni kihívásukat, az azt jelenti, hogy tettünk egy nagy lépést az általános mesterséges intelligencia elérése felé. Az ARC-AGI által jó magasra tett lécet 2019-es indulása óta egyetlen algoritmus sem volt képes megugrani.

Pédául a képen látható feladat egy embernek nem jelent különösebb gondot: ösztönösen ráérez arra, hogy a megoldás a szabálytalan alakzatok négyzetté alakítása egy-egy kisebb sötét négyzet segítségével. Mindez azonban a hagyományos értelemben vett gondolkodásra, intuícióra nem képes MI-modellek számára egyáltalán nem triviális.

Ehhez képest impresszív, hogy a takaréklángra állított o3 is képes volt 75,7 százalékra, míg a teljes gőzzel működő verzió 87,5 százalékot ért el. A teszt készítő egyébként a 85 százalékos szintet adták meg az emberi teljesítmény küszöbértékének, amit a nagy teljesítményre állított o3 simán megugrott.

Kockázatok és mellékhatások

Az új generáció képességei egyelőre nem próbálhatók ki nyilvánosan. Az o3-at első körben kutatók számára teszi elérhetővé az OpenAI, hogy a modell használatából eredő biztonsági kockázatokat fel lehessen mérni, illetve ennek alapján a szükséges módosításokat el lehessen végezni a rendszeren.

A tervek szerint a teljes értékű o3 megjelenése előtt nem túl sokkal, már január végén szélesebb körben használható lesz az o3-mini. Ez egy fékezett habzású, több fokozatban használható változat, ami ugyan nem tud feltétlenül nagyon összetett kérdésekre válaszolni, de az egyszerűbb feladatokat ugyanúgy képes megoldani, mint a nagyobb testvére – csak éppen kevesebb számítással (azaz költséggel).

Azért mielőtt nagyon izgalomba jönnénk, érdemes megjegyezni, hogy a tapasztalatok alapján a PR-anyagok és marketingfilmek sugallta álomvilágot rendszerint összepiszkolja, amikor szembe jön a kiábrándító, sőt olykor egyenesen riasztó valóság.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

A Waymo önvezetős flottáját jó üzlet biztosítani

A robotaxis szolgáltatását egyre több városra kiterjesztő cég saját tanulmánya szerint önvezető flottája egy nagyságrenddel kevesebb kárrendezési ügyet generál, mint az emberi sofőrök.

Hirdetés

Felhőbe vezető út hazai szakértelemmel

Robusztus műszaki háttér, korszerű technológia és a felhasználóbarát kezelhetőség. A Flex Cloudhoz nem kell nagy IT-csapat, csak egy elhatározás és pár kattintás.

A hónap témája

Mit, hogyan, miért? Egy SD-WAN-bevezetés legfontosabb kérdései

A szoftveresen definiált WAN hálózatok kiépítése jóval komplexebb feladat egy hagyományos hálózati fejlesztésnél.

a melléklet támogatója a Yettel

CIO Podcast

"EU-kapcsolatok nélkül nem tudom elképzelni a BME modellváltását"

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

A Waymo önvezetős flottáját jó üzlet biztosítani

Mit, hogyan, miért? Egy SD-WAN-bevezetés legfontosabb kérdései

"EU-kapcsolatok nélkül nem tudom elképzelni a BME modellváltását"

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia