Az utóbbi időben egyre gyakrabban jelennek meg figyelmeztetések a nagy nyelvi modellek (LLM-ek) fejlesztésének egyik komoly akadályáról, nevezetesen arról, hogy belátható időn belül elapadhatnak a képzésükhöz felhasználható adatok. Ez nem elsősorban arra vonatkozik, hogy kimerülnek a publikus internet erőforrásai (bár azok sem végtelenek), hanem abból fakad, hogy a tartalom begyűjtését és alkalmazását is egyre szigorúbban ellenőrzik. Vagyis a nyilvános online források köre szűkül a YouTube-videóktól kezdve az újságcikkekig, miközben a generatív mesterséges intelligencia fejlesztéséhez mindig több és több adatra lenne szükség.
A Massachusetts Institute of Technology keretei között működő Data Provenance Initiative tanulmánya alapján a szóban forgó korlátozások tényleges válságot idézhetnek elő: ha valóban betartjk és betartatják a szóban forgó korlátozásokat, akkor az nagyon gyorsan eltorzíthatja az általános célú MI-rendszerek frissességét, sokféleségét és méretezési lehetőségeit. A kutatók összesen 14 ezer olyan webhelyet vizsgáltak meg, amelyek forrásként szerepelnek az MI betanítására használt prominens adatkészletekben, és úgy találták, hogy a legaktívabban karbantartott, kritikus források körülbelül 28 százaléka már most sem hozzáférhető.
Már az alapoknál gondok vannak
Már 2022 végén is lehetett olvasni olyan előrejelzéseket, amelyek értelmében a gépi tanuló rendszerek akár 2026 előtt kimeríthetik a jó minőségű nyelvi adatokat. A dolog pedig egyre reálisabbnak tűnik, ahogy egyre kevesebben tolerálják, hogy az MI-fejlesztők pénzt keresnek a szerzői jogi védelem alatt álló anyagaikra támaszkodva. A küzdelem ráadásul elvi alapon is zajlik, amikor az OpenAI technológiai igazgatója például simán kijelenti, hogy nem lesz kár bizonyos kreatív munkák eltűnéséért – miközben éppen nekik köszönhetők mindazok a tartalmak, amelyek révén az OpenAI ChatGPT és más MI-alkalmazások felépülhettek.
Visszatérve a Data Provenance Initiative kutatására, a dokumentum felhívja a figyelmet az MI-specifikus felhasználási záradékok terjedésére és azokra a nem hatékony webes protokollokra (akár a webes feltételek és a robots.txt fájlok közti ellentmondásokra), amelyek jelzik, hogy az eddig ismert internetet nem az MI-alapú, átfogó "újrahasznosításra" találták ki. A fejlesztők szintetikus adatok gyártásával vagy a médiavállalatokkal kötött megállapodásokkal próbálják kezelni a problémát, de az előbbiek nem feltétlenül alkalmasak az emberek által előállított tartalom kiváltására, utóbbiakat pedig meghatározzák a két oldal közti alapvető érdekellentétek.
Részletek az MIT Data Provenance Initiative kutatásában »
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak