Nemsokára kifogyhatnak a generatív mesterséges intelligencia betanítására használható, minőségi adatokból, amelyek beszerzése egy szakértő szerint már most is problémákat okoz.

A ChatGPT és más MI-alapú chatbotok hamarosan kifogyhatnak azokból a szöveges állományokból, amelyek alapján betanulják, hogy mit és hogyan kellene mondaniuk – vetette fel egy interjúban Stuart Russell, a Kaliforniai Egyetem professzora. Szerinte az a technológia, amelyik összehordja a robotoknak a szükséges szövegtengert, kezd falakba ütközni. Ez eredhet abból, hogy az adatgyűjtési gyakorlatokat egyre szigorúbb ellenőrzésnek vetik alá, hogy a kreatív iparben egyre nagyobb a felzúdulás, amiért a munkájukat a beleegyezésük nélkül használják, vagy abból, hogy a közösségi média meghatározó szereplői sem örülnek, amikor felporszívózzák a platformjaikon termelődő adatokat.

Az erőforrások azonban semmiképpen sem vég nélküliek, és a fentiektől függetlenül is kiapadhat az ilyen célokra letölthető tartalom. A fenti beszélgetésről riportot közlő Business Insider egy olyan tavaly novemberi előrejelzést idéz, amelynek alapján a gépi tanuló rendszerek már 2026 előtt kimeríthetik a jó minőségű nyelvi adatokat, utalva a nagy nyelvi modellek (LLM-ek) egyik alapvető sebezhetőségére is. Az ilyen adatkészletek összeállításában ugyanis könyvekre, híroldalakra, tudományos cikkekre, Wikipédia-bejegyzésekre vagy a szűrt webes tartalomra támaszkodnak, de a nyilvános online források szűkülnek, miközben a fejlesztésekhez egyre több adatra lenne szükség.

Végéhez közeledhet a nagy ingyenesség

A cikkben felidézik, hogy nemrég a Twittert irányító Elon Musk is az adatkaparásnak (data scraping) nevezett gyakorlatra hivatkozott, amikor bejelentette a felhasználók által naponta megtekinthető tweetek mennyiségének korlátozását. A BI-nak Russell olyan meg nem erősített jelentésekra is hivatkozott, amelyek értelmében a ChatGPT-t fejlesztő OpenAI már privát forrásokból vásárol szöveges adatkészleteket. Az MI-szakértő szerint létezhet többféle lehetséges magyarázat is az ilyen vásárlásokra, de a természetes következtetés az lenne, hogy a cég nem talál elég jó minőségű adatot. Ez természetesen csak feltételezés, hiszen az OpenAI a közzététel előtt nem válaszolt a lap kérdéseire.

Bár a a GPT-4 képzési adatkészleteiről nem sokat lehet tudni, Russell úgy látja, hogy az OpenAI-nak nagy szüksége lehet azok kiegészítésére, hogy felépítse eddigi legerősebb és legfejlettebb mesterségesintelligencia-modelljét. A BI emlékeztet rá, hogy a társaság ellen az elmúlt hetekben több pert is indítottak személyes adatok és szerzői jogi védelem alá eső anyagok felhasználása miatt, azzal vádolva az OpenAI-t, hogy esetenként magánbeszélgetésekhez vagy orvosi feljegyzésekhez is hozzányúlt. Mások azért mentek a bíróságra, mert a ChatGPT képes volt pontos összefoglalókat írni munkáikról, vagyis a jogvédett anyagok szükségszerűen ott voltak a képzéshez használt adatok között.

Cloud & big data

A bitcoin lesz Oklahoma olaja

A szövetségi állam kormányzója aláírta azt a törvényt, amely garantálja többek között az oklahomaiak kriptobányászathoz való jogát.
 
Az Európai Unió kibervédelmi direktívájának való megfelelés nem annyira bonyolult feladat, mint amilyennek elsőre látszik.

a melléklet támogatója a Balasys IT Zrt.

Hirdetés

Biztonságos M2M kommunikáció nagyvállalti környezetben a Balasystól

A megnövekedett támadások miatt az API-k biztonsága erősen szabályozott és folyamatosan auditált terület, amelynek védelme a gépi kommunikáció (M2M) biztonságossá tételén múlik.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.