A Google-nél beköszöntött a mesterséges intelligencia új korszaka, a Gemini-éra – írta szerdán a társaságot és annak anyavállalatát irányító Sundar Pichai a legújabb nagy nyelvi modell (LLM) bejelentésekor. A Geminit először a Google júniusi I/O fejlesztői konferenciáján szellőztették meg, de elérhetővé csak mostantól válik a cég különféle termékeiben a Bard chatbottól kezdve egészen a Pixel 8 Pro okostelefonokig.
Valójában nem is egyetlen modellről van szó, mert a Gemini 1.0 három különböző kiszerelésben jelnik meg: a Nano az androidos eszközökön, akár offline módban is működhet, a Pro fut majd a legtöbb online szolgáltatás (így például a Bard) alatt, míg a Gemini Ultrát az adatközponti és nagyvállalati alkalmazásokhoz tervezték.
Ez így már eléggé nagy dolog
Miután a Gemini végül beépül a Google keresőjébe, hirdetési termékeibe vagy a Chrome böngészőbe, tényleg ez jelenti a Google belátható jövőjét. Bár a legújabb kori MI-őrületet az OpenAI és a ChatGPT indította el nagyjából egy évvel ezelőtt, a Google hozta létre azoknak az alaptechnológiáknak a jelentős részét, amelyekre a generatív mesterséges intelligencia fellendülése épült. Ezért is érhette hideg zuhanykánt a vállalatot, hogy a ChatGPT milyen teljesítményre képes, és milyen gyorsan zsebre tette az iparágat – a Google ezen a felálláson változtatna új termékével, ami saját elemzései szerint az OpenAI GPT-4 multimodális nagy nyelvi modelljével összemérve is kiváló teljesítményt nyújt a különféle alkalmazási területeken.
A Google DeepMind vezérigazgatója, Demis Hassabis a társaság hivatalos blogján számolt be róla, hogy összesen 32 jól bevált benchmarkot futtattak le a két modell összehasonlítására, az átfogó tesztektől kezdve az olyan próbákig, amelyek az LLM-ek képességét értékelik a Python-kódok generálásában. Hassabis ezek alapján úgy értékeli, hogy a Gemini előrébb tart a 32-ből 30 területen, bár annyit megenged, hogy a különbség nem minden esetben óriási. A Gemini legfontosabb előnye az lehet, hogy jobban érti a videókat és a hanganyagokat, amelyekkel magasabb szintű interakcióra is képes. Ez a multiszenzoros megközelítés a kezdetektől a terv része, amennyiben a Google nem képezett ki külön modelleket a képekhez és a hangokhoz.
Ez még nem annyira nagy dolog
Bár a Gemini alsóbb kiadásai a szöveges be- és kimenetekre koncentrálnak, a Gemini Ultra már képekkel, videóval és hanggal is dolgozik, sőt a fejlesztések a cselekvés és az érintés (vagyis a robotikai jellegű dolgok) irányában zajlanak. A gyártó maga is elismeri, hogy a hallucináció vagy az elfogultság problémáit nem sikerült leküzdeiük, de azt remélik, hogy a modellek annál jobbak lesznek, minél többet tanulnak. A benchmarkoknál természetesen fontosbb lesz a mindennapi felhasználás próbája, de a Google elég magabiztosnak látszik a Gemini gyorsaságát és üzemeltetési költségeit illetően, nem beszélve az olyan feladatokról, mint mondjuk a kódolás: az új AlphaCode 2 rendszer állítólag a kódolási versenyek résztvevőinek 85 százalékánál jobban teljesít.
Mindezek fényében úgy tűnik, hogy volt értelme a Google vezérkara által tavaly decemberben kiadott "vörös riasztásnak", amikor más részlegektől irányítottak át csoportokat az MI-termékek fejlesztésére, annyira valós veszélynek érezték, hogy a Microsoft hátszelével futó ChatGPT belekarmol messze legtöbb bevételt hozó üzletükbe, az online keresésbe. A kommentárok ugyanakkor megjegyzik, hogy a fenti összehasonlítások az OpenAI egy évvel ezelőtt kiadott technológiájára vonatkoznak, és a nagy dobás, a Gemini Ultra a hírek szerint legkorábban csak januárban jelenhet meg. A Google így továbbra sem vette át a kezdeményezést a versenyben, és ezzel kapcsolatban a piacot sem jellemzi általános optimizmus, ha összevetjük az Alphabet és legfőbb MI-riválisa, a Microsoft tőzsdei eredményeit.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak