Nemsokára kifogyhatnak a generatív mesterséges intelligencia betanítására használható, minőségi adatokból, amelyek beszerzése egy szakértő szerint már most is problémákat okoz.

A ChatGPT és más MI-alapú chatbotok hamarosan kifogyhatnak azokból a szöveges állományokból, amelyek alapján betanulják, hogy mit és hogyan kellene mondaniuk – vetette fel egy interjúban Stuart Russell, a Kaliforniai Egyetem professzora. Szerinte az a technológia, amelyik összehordja a robotoknak a szükséges szövegtengert, kezd falakba ütközni. Ez eredhet abból, hogy az adatgyűjtési gyakorlatokat egyre szigorúbb ellenőrzésnek vetik alá, hogy a kreatív iparben egyre nagyobb a felzúdulás, amiért a munkájukat a beleegyezésük nélkül használják, vagy abból, hogy a közösségi média meghatározó szereplői sem örülnek, amikor felporszívózzák a platformjaikon termelődő adatokat.

Az erőforrások azonban semmiképpen sem vég nélküliek, és a fentiektől függetlenül is kiapadhat az ilyen célokra letölthető tartalom. A fenti beszélgetésről riportot közlő Business Insider egy olyan tavaly novemberi előrejelzést idéz, amelynek alapján a gépi tanuló rendszerek már 2026 előtt kimeríthetik a jó minőségű nyelvi adatokat, utalva a nagy nyelvi modellek (LLM-ek) egyik alapvető sebezhetőségére is. Az ilyen adatkészletek összeállításában ugyanis könyvekre, híroldalakra, tudományos cikkekre, Wikipédia-bejegyzésekre vagy a szűrt webes tartalomra támaszkodnak, de a nyilvános online források szűkülnek, miközben a fejlesztésekhez egyre több adatra lenne szükség.

Végéhez közeledhet a nagy ingyenesség

A cikkben felidézik, hogy nemrég a Twittert irányító Elon Musk is az adatkaparásnak (data scraping) nevezett gyakorlatra hivatkozott, amikor bejelentette a felhasználók által naponta megtekinthető tweetek mennyiségének korlátozását. A BI-nak Russell olyan meg nem erősített jelentésekra is hivatkozott, amelyek értelmében a ChatGPT-t fejlesztő OpenAI már privát forrásokból vásárol szöveges adatkészleteket. Az MI-szakértő szerint létezhet többféle lehetséges magyarázat is az ilyen vásárlásokra, de a természetes következtetés az lenne, hogy a cég nem talál elég jó minőségű adatot. Ez természetesen csak feltételezés, hiszen az OpenAI a közzététel előtt nem válaszolt a lap kérdéseire.

Bár a a GPT-4 képzési adatkészleteiről nem sokat lehet tudni, Russell úgy látja, hogy az OpenAI-nak nagy szüksége lehet azok kiegészítésére, hogy felépítse eddigi legerősebb és legfejlettebb mesterségesintelligencia-modelljét. A BI emlékeztet rá, hogy a társaság ellen az elmúlt hetekben több pert is indítottak személyes adatok és szerzői jogi védelem alá eső anyagok felhasználása miatt, azzal vádolva az OpenAI-t, hogy esetenként magánbeszélgetésekhez vagy orvosi feljegyzésekhez is hozzányúlt. Mások azért mentek a bíróságra, mert a ChatGPT képes volt pontos összefoglalókat írni munkáikról, vagyis a jogvédett anyagok szükségszerűen ott voltak a képzéshez használt adatok között.

Cloud & big data

MI-vel védenék a britek az internetre szabadított óvodásokat

Az illetékes hatóság felmérése szerint egyre több kisgyerek jelenik meg a világhálón, akiknek a szülei is egyre nagyobb szabadságot engednek a digitális térben.
 
Hirdetés

Adathelyreállítás pillanatok alatt

A vírus- és végpontvédelmet hatékonyan kiegészítő Zerto, a Hewlett Packard Enterprise Company platformfüggetlen, könnyen használható adatmentési és katasztrófaelhárítási megoldása.

Hol, milyen adatokat és hányszorosan tároljunk ahhoz, hogy biztonságban tudhassuk szervezetünk működését egy nem várt adatvesztési incidens esetén is?

a melléklet támogatója az EURO ONE Számítástechnikai Zrt.

CIO KUTATÁS

TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?

Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »

Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.