Úgy tűnik, egyetlen mesterséges intelligencia fejlesztésében érintett cégnél sem akarnak úgy elmenni karácsonyozni, hogy az év zárásaként ne jelentenének be valami jelentőset. Az OpenAI múlt héten az új o1 modelljét, a hét elején pedig a Sora videógenerátort tette elérhetővé, miközben az Elon Musk nevével fémjelzett xAI a techmilliárdos által irányított X közösségi platform összes felhasználója előtt megnyitotta a Grok generatív algoritmus és az abba beépülő Aurora képgenerátor használatát.
Tegnap a Google is beállt a sorba, és bemutatta a Gemini második generációját és a fejlettebb MI-modellre alapozott, közeljövőben megvalósítandó terveit. A cég erről szóló blogbejegyzése szerint a Gemini 2.0 természetesen a Google eddigi legszofisztikáltabb modellje. A multimodális algoritmus a szöveges kommunikáció mellett utasítható élő szóban, illetve vizuális imputokat is képes feldolgozni.
Az új generáció képességeinek első szeletét a Gemini 2.0 Flash előzetes módjával lehet kipróbálni akár már most is a Gemini AI Studio webes változatában (mobilra hamarosan érkezik). Az "igásló modellként" beharangozott változat támogatja a kép- és hanggenerálást, integráltan használja a cég keresőjét, kódol, matematikai feladatokat old meg és együttműködik harmadik féltől származó alkalmazásokkal.
Legfontosabb újdonsága, hogy – az ígéretek szerint – a korábbinál sokkal összetettebb feladatok elvégzésére is alkalmas, azaz sokkal inkább használható lesz olyasmire, amit általában egy asszisztens szokott megoldani. A fenti videóban például a gép a tervezéstől a webes bevásárlásig végigvisz egy többlépcsős folyamatot, amit a végén a felhasználónak csak le kell okéznia.
A Gemini második generációja újabb lépést jelent a cég tavasszal bemutatott grandiózus tervének elérésében. A Project Astra egy valós időben reagáló, multimodális asszisztens, amiből a fejlesztéséért felelős DeepMind a felhasználók mindennapi feladatait támogató univerzális alkalmazást faragna. Az Astra legújabb verziója a fejlesztéseknek köszönhetően például úgy képes több nyelven kommunikálni, hogy gond nélkül váltogat közöttük menet közben, de javult a reakciója és a "memóriája" is, illetve felkerült arzenáljába a Google Lens és a Maps.
A puding próbája
A vállalat bemutatója alapján a generatív algoritmus remekül alkalmazható videójátékos segédként is, aki mintegy a kanapé szélén ülve osztja a tanácsokat, pusztán az éppen a képernyőn látható információkra és a netre támaszkodva. Apró probléma, hogy a minden bizonnyal alaposan megkonstruált, többször leellenőrzött céges videóban is képes tényszerűen rossz tanáccsal szolgálni az MI, ami némi sötét árnyékot vetít az egész 2.0-s bejelentésre.
Annak fényében pedig különösen óvatosan kell kezelni a hivatalos állításokat, hogy a Google már korábban is ráfutott hasonló aknákra. A ChatGPT megjelenése miatt kapkodva kiadott Bard reklámvideójában például szintén olyasmit állított a roppant fejlettnek beharangozott chatbotjuk, ami köszönőviszonyban sem volt a valósággal.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak