A 404 Media az Nvidiától kiszivárgott dokumentumokra, levelekre és Slack beszélgetésekre hivatkozva számolt be róla, hogy a csipgyártó óriás elképesztő mennyiségű adatot gyűjtött be a YouTube-ról MI-modelljeinek betanításához. Az adatokat ennek alapján felhasználták a vállalat Cosmos mélytanuló modellje, autós önvezető technológiája, MI-avatárjai és a 3D-s Omniverse fejlesztéséhez is, ráadásul a lap értesülései szerint virtuális gépek alkalmazásával és automatikusan változó IP-címekkel igyekeztek elrejteni tevékenységüket a YouTube elől.
A cikkből kiderül, sem az egyes videók készítői, sem a YouTube tulajdonosa, a Google nem járultak hozzá az adatok lekaparásához (data scraping) és ilyen irányú felhasználásához. Ahogy korábban írtuk, a videómegosztó platform felhasználási szabályzatában tiltja az anyagok engedély nélküli begyűjtését, de a nagy MI-fejlesztők a jelek szerint nem törődnek az ilyen szöveges feladatokkal: a YouTube Subtitles nevű, általánosan használt adatkészlet például több mint 48 ezer YouTube-csatorna legalább 173 536 videójának feliratait tartalmazza.
Szabad rablás a fejlődés nevében
A 404 Media által szemlézett dokumentumokból az is látszik, hogy az Nvidiánál házon belül is sokan tettek fel kérdéseket a minimum véleményes adatgyűjtési gyakorlattal kapcsolatban, de a jogi és etikai aggályokat a vezetők (köztük a Cosmos projektért is felelős kutatási alelnökkel) lesöpörték az asztalról. Közben napi szinten annyi videót gereblyéztek össze a YouTube-ról, amennyit egy-egy ember egész élete során nézhetne csak végig, sőt olyan adatkészleteket is felhasználtak, amelyeket kifejezetten tudományos kutatások támogatására szolgálnak.
Az Nvidia a mesterségesintelligencia-ipar központi szereplőjévé vált az általa gyártott, nagy teljesítményű grafikus feldolgozó egységeken (GPU-kon) keresztül, sőt szinte egymagában a számításigényes MI-rendszereket kiszolgáló piacot. Ügyfelei között az OpenAI, a Microsoft vagy a Meta mellett természetesen ott van a Google is, ami még érdekesebbé teszi a helyzetet. A 404 Media kérdésére egyébként az Nvidia azt állította, hogy gyakorlata teljes mértékben megfelel a szerzői jog betűjének és szellemének is, de innentől ezt gyaníthatóan már nem ők fogják eldönteni.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak