El az útból! Érkezik az OpenAI legújabb üdvöskéje

Bitport2024.12.21.Cloud & big data

Ha van is fék az MI-vonaton, azt senki nem akarja használni. A ChatGPT fejlesztője az emberi szintű problémamegoldásra képes o3 modell beharangozásával zárta az évet.

Előzetes formában szeptember óta, széles körben, előfizetéses megoldásként pedig alig több mint két hete használható az o1, ami az OpenAI korábban szupertitkosként kezelt projektjének, a Strawberrynek az eredménye. Ennek fényében érdemes ízlelgetni a hírt, miszerint már túl is vagyunk a nagy nyelvi modell új változatának bemutatásán.

A vállalat már az o1 debütálásakor világossá tette: nem egyetlen modellről, hanem egy modellsorozat első eleméről van szó. A sorozat tagjai a cég reményei szerint a korábbi modellekhez képest már valóban képesek lesznek összetett tudományos, matematikai vagy épp kódolási problémák megoldására.

Az o1-et rögtön az o3 követi, amit a cég vezérigazgatója, Sam Altman viccesen azzal magyarázott az alábbi videóban, hogy egyrészt nem akartak bekavarni a Telefónicának (amely az O2 távközlési brand tulajdonosa), másrészt az OpenAI amúgy is termékei csapnivalóan gyenge elnevezéséről ismert.

Az szinte említésre sem érdemes, hogy az új generáció a szokásos banchmarkok tekintetében magabiztosan veri a korábbi modelleket. A cég saját mérései szerint a nagy hagyományokkal rendelkező amerikai meghívásos matematika verseny (AIME) feladatsorát az o3 96,7 százalékos eredménnyel tudta le, miközben az o1 ugyanebben csak 83,3 százalékra volt képes.

Algoritmusára talált az emberi képességekre kihegyezett teszt

Az o3 annyira jól vizsgázott, hogy az OpenAI "benevezte" egy különleges tesztre is. A nonprofit ARC Prize által készített ARC-AGI kifejezetten az algoritmusok intuíciós és tanulási képességét igyekszik mérni. A szervezet szerint amennyiben egy MI-rendszer képes lesz abszolválni kihívásukat, az azt jelenti, hogy tettünk egy nagy lépést az általános mesterséges intelligencia elérése felé. Az ARC-AGI által jó magasra tett lécet 2019-es indulása óta egyetlen algoritmus sem volt képes megugrani.

Pédául a képen látható feladat egy embernek nem jelent különösebb gondot: ösztönösen ráérez arra, hogy a megoldás a szabálytalan alakzatok négyzetté alakítása egy-egy kisebb sötét négyzet segítségével. Mindez azonban a hagyományos értelemben vett gondolkodásra, intuícióra nem képes MI-modellek számára egyáltalán nem triviális.

Ehhez képest impresszív, hogy a takaréklángra állított o3 is képes volt 75,7 százalékra, míg a teljes gőzzel működő verzió 87,5 százalékot ért el. A teszt készítő egyébként a 85 százalékos szintet adták meg az emberi teljesítmény küszöbértékének, amit a nagy teljesítményre állított o3 simán megugrott.

Kockázatok és mellékhatások

Az új generáció képességei egyelőre nem próbálhatók ki nyilvánosan. Az o3-at első körben kutatók számára teszi elérhetővé az OpenAI, hogy a modell használatából eredő biztonsági kockázatokat fel lehessen mérni, illetve ennek alapján a szükséges módosításokat el lehessen végezni a rendszeren.

A tervek szerint a teljes értékű o3 megjelenése előtt nem túl sokkal, már január végén szélesebb körben használható lesz az o3-mini. Ez egy fékezett habzású, több fokozatban használható változat, ami ugyan nem tud feltétlenül nagyon összetett kérdésekre válaszolni, de az egyszerűbb feladatokat ugyanúgy képes megoldani, mint a nagyobb testvére – csak éppen kevesebb számítással (azaz költséggel).

Azért mielőtt nagyon izgalomba jönnénk, érdemes megjegyezni, hogy a tapasztalatok alapján a PR-anyagok és marketingfilmek sugallta álomvilágot rendszerint összepiszkolja, amikor szembe jön a kiábrándító, sőt olykor egyenesen riasztó valóság.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Ki kell fizetnie a Google-nek az EU-s rekordbüntetést

Egy 2018 óta húzódó ügy végére került pont tegnap azzal, hogy az Európai Unió Bírósága tegnap helyben hagyta a versenykorlátozó intézkedések miatt a Google-re kiszabott 4,1 milliárd eurós EU-s bírságot.

A hónap témája

Túl a költségcsökkentésen - felnőtt a felhő

A hurráoptimizmusnak régen vége, a fejlesztések sem technikai köntösben zajlanak már, hanem üzleti, jogi és kockázatkezelési megfontolások dominálnak. Belépőben vagyunk a cloud második korszakába.

a melléklet támogatója a ONE Solutions

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ki kell fizetnie a Google-nek az EU-s rekordbüntetést

Túl a költségcsökkentésen - felnőtt a felhő

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!