Úgy tűnik, egyetlen mesterséges intelligencia fejlesztésében érintett cégnél sem akarnak úgy elmenni karácsonyozni, hogy az év zárásaként ne jelentenének be valami jelentőset. Az OpenAI múlt héten az új o1 modelljét, a hét elején pedig a Sora videógenerátort tette elérhetővé, miközben az Elon Musk nevével fémjelzett xAI a techmilliárdos által irányított X közösségi platform összes felhasználója előtt megnyitotta a Grok generatív algoritmus és az abba beépülő Aurora képgenerátor használatát.
Tegnap a Google is beállt a sorba, és bemutatta a Gemini második generációját és a fejlettebb MI-modellre alapozott, közeljövőben megvalósítandó terveit. A cég erről szóló blogbejegyzése szerint a Gemini 2.0 természetesen a Google eddigi legszofisztikáltabb modellje. A multimodális algoritmus a szöveges kommunikáció mellett utasítható élő szóban, illetve vizuális imputokat is képes feldolgozni.
Az új generáció képességeinek első szeletét a Gemini 2.0 Flash előzetes módjával lehet kipróbálni akár már most is a Gemini AI Studio webes változatában (mobilra hamarosan érkezik). Az "igásló modellként" beharangozott változat támogatja a kép- és hanggenerálást, integráltan használja a cég keresőjét, kódol, matematikai feladatokat old meg és együttműködik harmadik féltől származó alkalmazásokkal.
Legfontosabb újdonsága, hogy – az ígéretek szerint – a korábbinál sokkal összetettebb feladatok elvégzésére is alkalmas, azaz sokkal inkább használható lesz olyasmire, amit általában egy asszisztens szokott megoldani. A fenti videóban például a gép a tervezéstől a webes bevásárlásig végigvisz egy többlépcsős folyamatot, amit a végén a felhasználónak csak le kell okéznia.
A Gemini második generációja újabb lépést jelent a cég tavasszal bemutatott grandiózus tervének elérésében. A Project Astra egy valós időben reagáló, multimodális asszisztens, amiből a fejlesztéséért felelős DeepMind a felhasználók mindennapi feladatait támogató univerzális alkalmazást faragna. Az Astra legújabb verziója a fejlesztéseknek köszönhetően például úgy képes több nyelven kommunikálni, hogy gond nélkül váltogat közöttük menet közben, de javult a reakciója és a "memóriája" is, illetve felkerült arzenáljába a Google Lens és a Maps.
A puding próbája
A vállalat bemutatója alapján a generatív algoritmus remekül alkalmazható videójátékos segédként is, aki mintegy a kanapé szélén ülve osztja a tanácsokat, pusztán az éppen a képernyőn látható információkra és a netre támaszkodva. Apró probléma, hogy a minden bizonnyal alaposan megkonstruált, többször leellenőrzött céges videóban is képes tényszerűen rossz tanáccsal szolgálni az MI, ami némi sötét árnyékot vetít az egész 2.0-s bejelentésre.
Annak fényében pedig különösen óvatosan kell kezelni a hivatalos állításokat, hogy a Google már korábban is ráfutott hasonló aknákra. A ChatGPT megjelenése miatt kapkodva kiadott Bard reklámvideójában például szintén olyasmit állított a roppant fejlettnek beharangozott chatbotjuk, ami köszönőviszonyban sem volt a valósággal.
Az ötlettől az értékteremtésig – egy jól működő adattudományi szervezet alapjai
Miért bukik el annyi adattudományi kezdeményezés már az indulás után? A válasz gyakran nem az algoritmusok összetettségében, hanem az adatok minőségében és kezelésében keresendő. Stabil adatforrások, következetes feature-kezelés és egy jól felépített Feature Store nélkül a gépi tanulás ritkán jut el a valódi üzleti értékteremtésig.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!
Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.
2026.03.10. UP Rendezvénytér
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak