A Google anyavállalata, az Alphabet kedden új bejelentések özönével válaszolt a ChatGPT legújabb változatának bemutatásra, amivel az OpenAI közvetlenül a Google I/O fejlesztői konferenciája előtt kápráztatta el a közönséget. A válasz pedig csattanósra sikerült, amennyiben a most közzétett újdonságok közül a leglátványosabb egyértelműen a Project Astra nevű MI-segéd prototípusa volt. A Google Gemini Ultra modelljére épülő Project Astra egy valós időben reagáló, multimodális asszisztens, amiből a fejlesztéséért felelős DeepMind a felhasználók mindennapi feladatait támogató univerzális alkalmazást faragna.
Ennek korai eredményei nem kevésbé lenyűgözőek annál, mint amit az OpenAI villantott a hét elején. A Google MI-je ugyancsak képes az okostelefonok kameráján keresztül érzékelni és értékelni a környezetet, és emlékszik is a korábbi tapasztalatokra. Így a kérdések megválaszolásán vagy a programkódok átfésülésén túl olyasmire is képes, mint például a szoba túlsó végében felejtett szemüveg gyors megtalálása, vagy a kameraképen bejelölt dolgok azonosítása. A Gemini Live révén ráadásul természetesebben kommunikál, mint a Google korábbi megoldásai, végleg múzeumba küldve a Siri- vagy Alexa-szintű alkalmazásokat.
Az Astra mellett bemutatkozott még a Gemini 1.5 Flash, ami olyan gyakori feladatok gyorsabb elvégzését teszi lehetővé, mint a tartalmi összegzés vagy a feliratozás. Egy másik új modell, a Veo, szöveges promptokból generál videókat, és állítólag a felhasználói eszközökön, például az okostelefonon futtatható Gemini Nano teljesítménye is óriásit fejlődött. Kiderült, hogy a Gemini Pro kontextusablaka (az adott lekérdezésben egyszerre figyelembe vehető információ mennyisége) már 2 millió tokennél jár, és a Google szerint a modell már sokkal pontosabban követi az utasításokat, mint ahogy eddig képes volt rá.
Teljes átalakulás a Google-nél
A Google mindennek alapján nem csupán az MI-modellek fejlesztésében halad mérföldes léptekkel, hanem a kaotikus nevezéktant leszámítva abban is egyre sikeresebb, ahogy a technológiákat tálalja a felhasználók elé. A vállalat emellett egész pályás letámadásba kezdett: a mostani bejelentések között szerepel, hogy már 2024 végétől saját, hatodik generációs TPU-kkal nyújtana alternatívát a Google Cloud szolgáltatásban az Nvidia termékeivel szemben, keresőszolgáltatásában pedig hamarosan már MI-vel rendszerezi majd a találatokat a receptekre, filmekre, könyvekre és egyéb tartalmakra vonatkozó lekérdezéseknél.
Az AI Overviews funkció a mesterséges intelligencia segítségével szintetizálja az információt, és válaszolni tud olyan összetettebb felvetésekre is, amelyekre nem található egyszerű válasz a weben. A Google saját meghatározása alapján "a generatív MI-korszak igényeihez igazítja keresőtermékeit", és nagy léptékben alakítaná nyereséges termékekké a mesterséges intelligenciához fűződő innovációit. A kereső esetében ez olyan lehetőségeket nyitna meg, mint mondjuk a feltöltött videókra vonatkozó kérdések: a cég be is mutatta, hogy mindez hogyan segíthet diagnosztizálni például egy elromlott lemezjátszó problémáját.
A Google I/O bejelentéseinek összegzése a társaság hivatalos blogján »
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak