Ha van is fék az MI-vonaton, azt senki nem akarja használni. A ChatGPT fejlesztője az emberi szintű problémamegoldásra képes o3 modell beharangozásával zárta az évet.

Előzetes formában szeptember óta, széles körben, előfizetéses megoldásként pedig alig több mint két hete használható az o1, ami az OpenAI korábban szupertitkosként kezelt projektjének, a Strawberrynek az eredménye. Ennek fényében érdemes ízlelgetni a hírt, miszerint már túl is vagyunk a nagy nyelvi modell új változatának bemutatásán.

A vállalat már az o1 debütálásakor világossá tette: nem egyetlen modellről, hanem egy modellsorozat első eleméről van szó. A sorozat tagjai a cég reményei szerint a korábbi modellekhez képest már valóban képesek lesznek összetett tudományos, matematikai vagy épp kódolási problémák megoldására.

Az o1-et rögtön az o3 követi, amit a cég vezérigazgatója, Sam Altman viccesen azzal magyarázott az alábbi videóban, hogy egyrészt nem akartak bekavarni a Telefónicának (amely az O2 távközlési brand tulajdonosa), másrészt az OpenAI amúgy is termékei csapnivalóan gyenge elnevezéséről ismert.
 


Az szinte említésre sem érdemes, hogy az új generáció a szokásos banchmarkok tekintetében magabiztosan veri a korábbi modelleket. A cég saját mérései szerint a nagy hagyományokkal rendelkező amerikai meghívásos matematika verseny (AIME) feladatsorát az o3 96,7 százalékos eredménnyel tudta le, miközben az o1 ugyanebben csak 83,3 százalékra volt képes.

Algoritmusára talált az emberi képességekre kihegyezett teszt

Az o3 annyira jól vizsgázott, hogy az OpenAI "benevezte" egy különleges tesztre is. A nonprofit ARC Prize által készített ARC-AGI kifejezetten az algoritmusok intuíciós és tanulási képességét igyekszik mérni. A szervezet szerint amennyiben egy MI-rendszer képes lesz abszolválni kihívásukat, az azt jelenti, hogy tettünk egy nagy lépést az általános mesterséges intelligencia elérése felé. Az ARC-AGI által jó magasra tett lécet 2019-es indulása óta egyetlen algoritmus sem volt képes megugrani.
 


Pédául a képen látható feladat egy embernek nem jelent különösebb gondot: ösztönösen ráérez arra, hogy a megoldás a szabálytalan alakzatok négyzetté alakítása egy-egy kisebb sötét négyzet segítségével. Mindez azonban a hagyományos értelemben vett gondolkodásra, intuícióra nem képes MI-modellek számára egyáltalán nem triviális.

Ehhez képest impresszív, hogy a takaréklángra állított o3 is képes volt 75,7 százalékra, míg a teljes gőzzel működő verzió 87,5 százalékot ért el. A teszt készítő egyébként a 85 százalékos szintet adták meg az emberi teljesítmény küszöbértékének, amit a nagy teljesítményre állított o3 simán megugrott. 

Kockázatok és mellékhatások

Az új generáció képességei egyelőre nem próbálhatók ki nyilvánosan. Az o3-at első körben kutatók számára teszi elérhetővé az OpenAI, hogy a modell használatából eredő biztonsági kockázatokat fel lehessen mérni, illetve ennek alapján a szükséges módosításokat el lehessen végezni a rendszeren.

A tervek szerint a teljes értékű o3 megjelenése előtt nem túl sokkal, már január végén szélesebb körben használható lesz az o3-mini. Ez egy fékezett habzású, több fokozatban használható változat, ami ugyan nem tud feltétlenül nagyon összetett kérdésekre válaszolni, de az egyszerűbb feladatokat ugyanúgy képes megoldani, mint a nagyobb testvére – csak éppen kevesebb számítással (azaz költséggel).

Azért mielőtt nagyon izgalomba jönnénk, érdemes megjegyezni, hogy a tapasztalatok alapján a PR-anyagok és marketingfilmek sugallta álomvilágot rendszerint összepiszkolja, amikor szembe jön a kiábrándító, sőt olykor egyenesen riasztó valóság.

Cloud & big data

Több mint félszázezer műholddal sűrítené az égboltot Bezos cége

A Blue Origin amerikai hatóságokhoz beadott kérelme szerint akár 51 600 szatellitből is állhat a vállalt tervezett adatközpontos űrflottája.
 

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Hirdetés

HPE Morpheus VM Essentials: a virtualizáció arany középútja

Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.

A VMware felvásárlása és licencelési gyakorlatának átalakítása erősen rányomta a bélyegét az adatközponti infrastruktúrára: a korábban kiszámítható alap bizonytalanná és gyakran költségesebbé vált.

a melléklet támogatója az EURO ONE

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.