Egyre kevésbé férnek hozzá az MI-fejlesztők a létfontosságú adatokhoz

Bitport2024.07.23.Piaci hírek

A tartalomszolgáltatók sorra vezetik be a korlátozásokat az általuk közölt anyagok felhasználására, miközben a mesterséges intelligencia egyre többet követelne magának.

Az utóbbi időben egyre gyakrabban jelennek meg figyelmeztetések a nagy nyelvi modellek (LLM-ek) fejlesztésének egyik komoly akadályáról, nevezetesen arról, hogy belátható időn belül elapadhatnak a képzésükhöz felhasználható adatok. Ez nem elsősorban arra vonatkozik, hogy kimerülnek a publikus internet erőforrásai (bár azok sem végtelenek), hanem abból fakad, hogy a tartalom begyűjtését és alkalmazását is egyre szigorúbban ellenőrzik. Vagyis a nyilvános online források köre szűkül a YouTube-videóktól kezdve az újságcikkekig, miközben a generatív mesterséges intelligencia fejlesztéséhez mindig több és több adatra lenne szükség.

A Massachusetts Institute of Technology keretei között működő Data Provenance Initiative tanulmánya alapján a szóban forgó korlátozások tényleges válságot idézhetnek elő: ha valóban betartjk és betartatják a szóban forgó korlátozásokat, akkor az nagyon gyorsan eltorzíthatja az általános célú MI-rendszerek frissességét, sokféleségét és méretezési lehetőségeit. A kutatók összesen 14 ezer olyan webhelyet vizsgáltak meg, amelyek forrásként szerepelnek az MI betanítására használt prominens adatkészletekben, és úgy találták, hogy a legaktívabban karbantartott, kritikus források körülbelül 28 százaléka már most sem hozzáférhető.

Már az alapoknál gondok vannak

Már 2022 végén is lehetett olvasni olyan előrejelzéseket, amelyek értelmében a gépi tanuló rendszerek akár 2026 előtt kimeríthetik a jó minőségű nyelvi adatokat. A dolog pedig egyre reálisabbnak tűnik, ahogy egyre kevesebben tolerálják, hogy az MI-fejlesztők pénzt keresnek a szerzői jogi védelem alatt álló anyagaikra támaszkodva. A küzdelem ráadásul elvi alapon is zajlik, amikor az OpenAI technológiai igazgatója például simán kijelenti, hogy nem lesz kár bizonyos kreatív munkák eltűnéséért – miközben éppen nekik köszönhetők mindazok a tartalmak, amelyek révén az OpenAI ChatGPT és más MI-alkalmazások felépülhettek.

Visszatérve a Data Provenance Initiative kutatására, a dokumentum felhívja a figyelmet az MI-specifikus felhasználási záradékok terjedésére és azokra a nem hatékony webes protokollokra (akár a webes feltételek és a robots.txt fájlok közti ellentmondásokra), amelyek jelzik, hogy az eddig ismert internetet nem az MI-alapú, átfogó "újrahasznosításra" találták ki. A fejlesztők szintetikus adatok gyártásával vagy a médiavállalatokkal kötött megállapodásokkal próbálják kezelni a problémát, de az előbbiek nem feltétlenül alkalmasak az emberek által előállított tartalom kiváltására, utóbbiakat pedig meghatározzák a két oldal közti alapvető érdekellentétek.

Részletek az MIT Data Provenance Initiative kutatásában »

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Piaci hírek

A kisebb hazai gyártóvállalatok elengedhetetlennek tartják a digitalizációt

Egy friss kutatás szerint az üzleti siker és a technológiai fejlődés csereszabatos kifejezésként élnek a kisebb gyártó vállalkozásokat irányító vezetők fejében.

Hirdetés

Így újult meg Magyarország leggyorsabb mobilhálózata

Közel 100 milliárd forintos beruházással, a rádiós és maghálózat teljes modernizációjával zárult le a Yettel történetének egyik legnagyobb műszaki fejlesztése.

A hónap témája

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

A kompromittált rendszerek, a dark weben felbukkanó ügyféladatok vagy a zsarolóvírus-kampányok következményei már a vezérigazgatói és pénzügyi igazgatói irodában csapódnak le – jogi, reputációs és üzleti szinten is. Lehet és kell is védekezni ellene.

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

A kisebb hazai gyártóvállalatok elengedhetetlennek tartják a digitalizációt

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia