Nemsokára kifogyhatnak a generatív mesterséges intelligencia betanítására használható, minőségi adatokból, amelyek beszerzése egy szakértő szerint már most is problémákat okoz.

A ChatGPT és más MI-alapú chatbotok hamarosan kifogyhatnak azokból a szöveges állományokból, amelyek alapján betanulják, hogy mit és hogyan kellene mondaniuk – vetette fel egy interjúban Stuart Russell, a Kaliforniai Egyetem professzora. Szerinte az a technológia, amelyik összehordja a robotoknak a szükséges szövegtengert, kezd falakba ütközni. Ez eredhet abból, hogy az adatgyűjtési gyakorlatokat egyre szigorúbb ellenőrzésnek vetik alá, hogy a kreatív iparben egyre nagyobb a felzúdulás, amiért a munkájukat a beleegyezésük nélkül használják, vagy abból, hogy a közösségi média meghatározó szereplői sem örülnek, amikor felporszívózzák a platformjaikon termelődő adatokat.

Az erőforrások azonban semmiképpen sem vég nélküliek, és a fentiektől függetlenül is kiapadhat az ilyen célokra letölthető tartalom. A fenti beszélgetésről riportot közlő Business Insider egy olyan tavaly novemberi előrejelzést idéz, amelynek alapján a gépi tanuló rendszerek már 2026 előtt kimeríthetik a jó minőségű nyelvi adatokat, utalva a nagy nyelvi modellek (LLM-ek) egyik alapvető sebezhetőségére is. Az ilyen adatkészletek összeállításában ugyanis könyvekre, híroldalakra, tudományos cikkekre, Wikipédia-bejegyzésekre vagy a szűrt webes tartalomra támaszkodnak, de a nyilvános online források szűkülnek, miközben a fejlesztésekhez egyre több adatra lenne szükség.

Végéhez közeledhet a nagy ingyenesség

A cikkben felidézik, hogy nemrég a Twittert irányító Elon Musk is az adatkaparásnak (data scraping) nevezett gyakorlatra hivatkozott, amikor bejelentette a felhasználók által naponta megtekinthető tweetek mennyiségének korlátozását. A BI-nak Russell olyan meg nem erősített jelentésekra is hivatkozott, amelyek értelmében a ChatGPT-t fejlesztő OpenAI már privát forrásokból vásárol szöveges adatkészleteket. Az MI-szakértő szerint létezhet többféle lehetséges magyarázat is az ilyen vásárlásokra, de a természetes következtetés az lenne, hogy a cég nem talál elég jó minőségű adatot. Ez természetesen csak feltételezés, hiszen az OpenAI a közzététel előtt nem válaszolt a lap kérdéseire.

Bár a a GPT-4 képzési adatkészleteiről nem sokat lehet tudni, Russell úgy látja, hogy az OpenAI-nak nagy szüksége lehet azok kiegészítésére, hogy felépítse eddigi legerősebb és legfejlettebb mesterségesintelligencia-modelljét. A BI emlékeztet rá, hogy a társaság ellen az elmúlt hetekben több pert is indítottak személyes adatok és szerzői jogi védelem alá eső anyagok felhasználása miatt, azzal vádolva az OpenAI-t, hogy esetenként magánbeszélgetésekhez vagy orvosi feljegyzésekhez is hozzányúlt. Mások azért mentek a bíróságra, mert a ChatGPT képes volt pontos összefoglalókat írni munkáikról, vagyis a jogvédett anyagok szükségszerűen ott voltak a képzéshez használt adatok között.

Cloud & big data

Működőképes-e a magyar MI-stratégia?

Az IVSZ is véleményezte a Nagy Márton és Palkovics László jegyezte stratégiát.
 
Hirdetés

A kifizetett energia
60%-a elvész, de egy audit feltárja, hol folyik el a pénzünk

A Schneider Electric energiahatékonysági szolgáltatása átfogó megoldást kínál, amely támogatja a cégek energiahatékonyság-növelési programjaik megvalósításában, az iparágban vezető megoldások, szolgáltatások és szakértők segítségével.

A vállalati IT-rendszerek egyik legnagyobb kihívása ma már nem a hardver beszerzése vagy a szoftverek integrációja, hanem az üzemeltetés. A modern storage-megoldások válasza erre az automatizáció és a menedzsment egyszerűsítése.

a melléklet támogatója az EURO ONE

Hirdetés

Hatékony adattárolás, biztonságosabb működés: HPE storage az EURO ONE szakértelmével

Az adatmennyiség rohamos növekedése, a kritikus üzleti alkalmazások rendelkezésre állási követelményei és a kiberbiztonsági fenyegetések mind olyan tényezők, amelyek túlmutatnak a hagyományos storage-megoldások képességein.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.