A tartalomszolgáltatók sorra vezetik be a korlátozásokat az általuk közölt anyagok felhasználására, miközben a mesterséges intelligencia egyre többet követelne magának.

Az utóbbi időben egyre gyakrabban jelennek meg figyelmeztetések a nagy nyelvi modellek (LLM-ek) fejlesztésének egyik komoly akadályáról, nevezetesen arról, hogy belátható időn belül elapadhatnak a képzésükhöz felhasználható adatok. Ez nem elsősorban arra vonatkozik, hogy kimerülnek a publikus internet erőforrásai (bár azok sem végtelenek), hanem abból fakad, hogy a tartalom begyűjtését és alkalmazását is egyre szigorúbban ellenőrzik. Vagyis a nyilvános online források köre szűkül a YouTube-videóktól kezdve az újságcikkekig, miközben a generatív mesterséges intelligencia fejlesztéséhez mindig több és több adatra lenne szükség.

A Massachusetts Institute of Technology keretei között működő Data Provenance Initiative tanulmánya alapján a szóban forgó korlátozások tényleges válságot idézhetnek elő: ha valóban betartjk és betartatják a szóban forgó korlátozásokat, akkor az nagyon gyorsan eltorzíthatja az általános célú MI-rendszerek frissességét, sokféleségét és méretezési lehetőségeit. A kutatók összesen 14 ezer olyan webhelyet vizsgáltak meg, amelyek forrásként szerepelnek az MI betanítására használt prominens adatkészletekben, és úgy találták, hogy a legaktívabban karbantartott, kritikus források körülbelül 28 százaléka már most sem hozzáférhető.

Már az alapoknál gondok vannak

Már 2022 végén is lehetett olvasni olyan előrejelzéseket, amelyek értelmében a gépi tanuló rendszerek akár 2026 előtt kimeríthetik a jó minőségű nyelvi adatokat. A dolog pedig egyre reálisabbnak tűnik, ahogy egyre kevesebben tolerálják, hogy az MI-fejlesztők pénzt keresnek a szerzői jogi védelem alatt álló anyagaikra támaszkodva. A küzdelem ráadásul elvi alapon is zajlik, amikor az OpenAI technológiai igazgatója például simán kijelenti, hogy nem lesz kár bizonyos kreatív munkák eltűnéséért – miközben éppen nekik köszönhetők mindazok a tartalmak, amelyek révén az OpenAI ChatGPT és más MI-alkalmazások felépülhettek.

Visszatérve a Data Provenance Initiative kutatására, a dokumentum felhívja a figyelmet az MI-specifikus felhasználási záradékok terjedésére és azokra a nem hatékony webes protokollokra (akár a webes feltételek és a robots.txt fájlok közti ellentmondásokra), amelyek jelzik, hogy az eddig ismert internetet nem az MI-alapú, átfogó "újrahasznosításra" találták ki. A fejlesztők szintetikus adatok gyártásával vagy a médiavállalatokkal kötött megállapodásokkal próbálják kezelni a problémát, de az előbbiek nem feltétlenül alkalmasak az emberek által előállított tartalom kiváltására, utóbbiakat pedig meghatározzák a két oldal közti alapvető érdekellentétek.

Részletek az MIT Data Provenance Initiative kutatásában »

Piaci hírek

MI-vezérelt embermosógép készül Japánban

A pilótafülkére emlékeztető szerkezet gyors mosó-szárító programot és teljes felfrissülést ígér a felhasználóknak.
 
Ezt már akkor sokan állították, amikor a Watson vagy a DeepMind még legfeljebb érdekes játék volt, mert jó volt kvízben, sakkban vagy góban.
Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.