Az OpenAI csütörtökön adta ki Strawberry néven hivatkozott MI-modelljét, ami az új nevezéktanban "OpenAI o1-preview" néven jelenik meg, és a vállalat ígéretei szerint a PhD hallgatókhoz hasonló teljesítményre képes a fizikai, kémiai és biológia benchmark feladatokban. A modell a bejelentés alapján már emberszerű következtetési képességekkel rendelkezik, és a korábbi kiadásokhoz képest sokkal összetettebb problémákkal is sikeresen megbirkózik a tudományos területeken, a matematikai feladványokban vagy a programkódok felépítésében.
Ahogy azonban a korai tesztelők első beszámolóiból kiderül, az emberi tudósoknak és programozóknak egyelőre nem kell aggódniuk. A Strawberry a költségeit és az erőforrásigényét tekintve valóban felsőbb szintre lépett, azonban a kimeneteiben sokszor bonyolítja túl az érvelést, és hajlamos rá, hogy a megszokott módon leolvadjon a legegyszerűbb kérdésektől. Bár azt a gyártó is elismeri, hogy a modell még fejlesztés alatt áll, és sok feladatra továbbra is a GPT-4o lesz az alkalmasabb eszköz, az emberi értelemmel mindenképpen korai volt összehasonlítani.
Nem a teljesítmény, hanem a felhajtás problémás
A Futourism összeállítása szemléletes példákat hoz azokból a kísérletekből, amelyeket a felhasználók eddig közzétettek. A Strawberry egyes esetekben továbbra is szabálytalan lépésekkel próbálja megoldani a sakkfeladványokat, reménytelenül belegabalyodik a primitív szöveges feladatokba, időnként pedig az is kifog rajta, ha megkérdezik tőle, hogy hány darab R betű van a strawberry (magyarul eper) szóban. Ezek a nagy nyelvi modellekre eddig is jellemző hibákat idézik, vagyis a jelek szerint ezúttal sem jutottak sokkal közelebb azok kiküszöböléséhez.
Az OpenAI szerint a legújabb MI "korai modellként" még nem feltétlenül rendelkezik a ChatGPT-t hasznossá tevő funkciókkal, és iteratív megoldásainak kidolgozása is hosszabb válaszidőt eredményez. A lap a vállalat egyik kutatóját idézi, aki szerint a drágább és lassabb működés azonban vállalható kompromisszum, ha az eredmény egy új rákgyógyszer vagy a Riemann-sejtés bizonyítása, a kritikusok szerint azonban nem jó ötlet ilyen elvárásokat támasztani az új modellel szemben, ami még egy amőbapartit sem képes megbízhatóan lehozni.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak