A 404 Media az Nvidiától kiszivárgott dokumentumokra, levelekre és Slack beszélgetésekre hivatkozva számolt be róla, hogy a csipgyártó óriás elképesztő mennyiségű adatot gyűjtött be a YouTube-ról MI-modelljeinek betanításához. Az adatokat ennek alapján felhasználták a vállalat Cosmos mélytanuló modellje, autós önvezető technológiája, MI-avatárjai és a 3D-s Omniverse fejlesztéséhez is, ráadásul a lap értesülései szerint virtuális gépek alkalmazásával és automatikusan változó IP-címekkel igyekeztek elrejteni tevékenységüket a YouTube elől.
A cikkből kiderül, sem az egyes videók készítői, sem a YouTube tulajdonosa, a Google nem járultak hozzá az adatok lekaparásához (data scraping) és ilyen irányú felhasználásához. Ahogy korábban írtuk, a videómegosztó platform felhasználási szabályzatában tiltja az anyagok engedély nélküli begyűjtését, de a nagy MI-fejlesztők a jelek szerint nem törődnek az ilyen szöveges feladatokkal: a YouTube Subtitles nevű, általánosan használt adatkészlet például több mint 48 ezer YouTube-csatorna legalább 173 536 videójának feliratait tartalmazza.
Szabad rablás a fejlődés nevében
A 404 Media által szemlézett dokumentumokból az is látszik, hogy az Nvidiánál házon belül is sokan tettek fel kérdéseket a minimum véleményes adatgyűjtési gyakorlattal kapcsolatban, de a jogi és etikai aggályokat a vezetők (köztük a Cosmos projektért is felelős kutatási alelnökkel) lesöpörték az asztalról. Közben napi szinten annyi videót gereblyéztek össze a YouTube-ról, amennyit egy-egy ember egész élete során nézhetne csak végig, sőt olyan adatkészleteket is felhasználtak, amelyeket kifejezetten tudományos kutatások támogatására szolgálnak.
Az Nvidia a mesterségesintelligencia-ipar központi szereplőjévé vált az általa gyártott, nagy teljesítményű grafikus feldolgozó egységeken (GPU-kon) keresztül, sőt szinte egymagában a számításigényes MI-rendszereket kiszolgáló piacot. Ügyfelei között az OpenAI, a Microsoft vagy a Meta mellett természetesen ott van a Google is, ami még érdekesebbé teszi a helyzetet. A 404 Media kérdésére egyébként az Nvidia azt állította, hogy gyakorlata teljes mértékben megfelel a szerzői jog betűjének és szellemének is, de innentől ezt gyaníthatóan már nem ők fogják eldönteni.
Az ötlettől az értékteremtésig – egy jól működő adattudományi szervezet alapjai
Miért bukik el annyi adattudományi kezdeményezés már az indulás után? A válasz gyakran nem az algoritmusok összetettségében, hanem az adatok minőségében és kezelésében keresendő. Stabil adatforrások, következetes feature-kezelés és egy jól felépített Feature Store nélkül a gépi tanulás ritkán jut el a valódi üzleti értékteremtésig.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!
Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.
2026.03.10. UP Rendezvénytér
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak