Nemsokára kifogyhatnak a generatív mesterséges intelligencia betanítására használható, minőségi adatokból, amelyek beszerzése egy szakértő szerint már most is problémákat okoz.

A ChatGPT és más MI-alapú chatbotok hamarosan kifogyhatnak azokból a szöveges állományokból, amelyek alapján betanulják, hogy mit és hogyan kellene mondaniuk – vetette fel egy interjúban Stuart Russell, a Kaliforniai Egyetem professzora. Szerinte az a technológia, amelyik összehordja a robotoknak a szükséges szövegtengert, kezd falakba ütközni. Ez eredhet abból, hogy az adatgyűjtési gyakorlatokat egyre szigorúbb ellenőrzésnek vetik alá, hogy a kreatív iparben egyre nagyobb a felzúdulás, amiért a munkájukat a beleegyezésük nélkül használják, vagy abból, hogy a közösségi média meghatározó szereplői sem örülnek, amikor felporszívózzák a platformjaikon termelődő adatokat.

Az erőforrások azonban semmiképpen sem vég nélküliek, és a fentiektől függetlenül is kiapadhat az ilyen célokra letölthető tartalom. A fenti beszélgetésről riportot közlő Business Insider egy olyan tavaly novemberi előrejelzést idéz, amelynek alapján a gépi tanuló rendszerek már 2026 előtt kimeríthetik a jó minőségű nyelvi adatokat, utalva a nagy nyelvi modellek (LLM-ek) egyik alapvető sebezhetőségére is. Az ilyen adatkészletek összeállításában ugyanis könyvekre, híroldalakra, tudományos cikkekre, Wikipédia-bejegyzésekre vagy a szűrt webes tartalomra támaszkodnak, de a nyilvános online források szűkülnek, miközben a fejlesztésekhez egyre több adatra lenne szükség.

Végéhez közeledhet a nagy ingyenesség

A cikkben felidézik, hogy nemrég a Twittert irányító Elon Musk is az adatkaparásnak (data scraping) nevezett gyakorlatra hivatkozott, amikor bejelentette a felhasználók által naponta megtekinthető tweetek mennyiségének korlátozását. A BI-nak Russell olyan meg nem erősített jelentésekra is hivatkozott, amelyek értelmében a ChatGPT-t fejlesztő OpenAI már privát forrásokból vásárol szöveges adatkészleteket. Az MI-szakértő szerint létezhet többféle lehetséges magyarázat is az ilyen vásárlásokra, de a természetes következtetés az lenne, hogy a cég nem talál elég jó minőségű adatot. Ez természetesen csak feltételezés, hiszen az OpenAI a közzététel előtt nem válaszolt a lap kérdéseire.

Bár a a GPT-4 képzési adatkészleteiről nem sokat lehet tudni, Russell úgy látja, hogy az OpenAI-nak nagy szüksége lehet azok kiegészítésére, hogy felépítse eddigi legerősebb és legfejlettebb mesterségesintelligencia-modelljét. A BI emlékeztet rá, hogy a társaság ellen az elmúlt hetekben több pert is indítottak személyes adatok és szerzői jogi védelem alá eső anyagok felhasználása miatt, azzal vádolva az OpenAI-t, hogy esetenként magánbeszélgetésekhez vagy orvosi feljegyzésekhez is hozzányúlt. Mások azért mentek a bíróságra, mert a ChatGPT képes volt pontos összefoglalókat írni munkáikról, vagyis a jogvédett anyagok szükségszerűen ott voltak a képzéshez használt adatok között.

Cloud & big data

Felvásárlási lázban ég a Siemens

Miközben a német vállalat alig egy hete zárta le az Altair 10,6 milliárd dolláros felvásárlását, tegnap már a kutatásfejlesztést támogató programokat kínáló Dotmatics 5,1 milliárd dolláros akvizíciójáról adott ki közleményt.
 
Körképünkben áttekintjük, hogy szűkebb és bővebb környezetünkben mit sikerült elérni a digitális gazdaság és életvitel felé vezető úton. Spolier: nem állunk olyan rosszul, mint gondolná, és nem állunk olyan jól, mint szeretné.

a melléklet támogatója a One Solutions

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.