Száz százalékig bizonyítani ugyan nehéz, de egy tanulmány szerint erősen valószínűsíthető, hogy a cég átgázolt a szerzői jogokon.

Valószínűsíthetően semmibe vette modelljei betanításakor a szerzői jogokat az OpenAI, állítja egy friss tanulmány (PDF), amely az AI Disclosures Project keretében készült. A teljes képhez hozzátartozik, hogy a tanulmány egyik szerzője Tim O'Reilly, a szakkönyvkiadásra és oktatási tartalmak publikálására szakosodott O'Reilly Media alapítója, és a tesztekhez a kiadó 34 könyvét használták. A kiadványok legálisan nem érhetők el nyilvánosan, legfeljebb illegális online könyvtárakból tölthetők le ingyenesen.

Szembesítés a szövegekkel

A kutatók ugyanazt a tesztet futtatták le három modellen, az GPT-3.5 Turbón, a GPT-4o Minin és a GPT-4o-n. A modelleknek feleletválasztós feladatot kellett megoldaniuk: válasszák ki négy szöveg közül azt, amelyik szó szerinti idézet egy adott O'Reilly-kiadványból. A négy lehetőségből egy eredeti, a többi gépileg generált parafrázis volt. Ha a modell helyesen válaszol, az arra utal, hogy valószínűleg megtanulta az adott szöveget. A válaszokat nem egy az egyben értékelték, hanem azok alapján számították a modellek osztályozási képességeinek értékelésére használt ún. AUROC (Area Under the Receiver Operating Characteristic) viszonyszámot.

Minél magasabb AUROC jött ki, annál nagyobb a valószínűsége, hogy a modellt az adott könyv szövegén képezték. Ha az érték 50 százalék (vagy 0,5 pont) közelében van, akkor inkább az a valószínű, hogy a modell nem "olvasta" a könyvet.

A legjobb eredményt a 2024 májusában megjelent GPT-4o érte el: 82 százalékos teljesítménye erősen valószínűsíti, hogy "látta" a kiadó teszthez kiválasztott könyveit. Maga Tim O'Reilly a kiadó oldalán megjelent ismertetőjében azonban hangsúlyozta: a teszt nem mond semmit arról, hogy az OpenAI honnan szerezhette meg a szövegeket. De persze hozzáteszi: ahogy a Metáról kiderült, hogy kalóz oldalakról szerzett be szerzői joggal védett szövegeket a Llama képzéséhez, úgy megtehette ugyanezt az OpenAI is.

A GPT-3.5 esetében 50 százalék közelében maradt az AUROC értéke, ami arra utal, hogy ott még nem használták a vizsgált könyveket a tanításhoz. Ugyanakkor érdekes módon a GPT-4o Mini sem jeleskedett, pedig azt a 4o modellel egy időben képezték. A tanulmány szerzői ezt azzal magyarázták, hogy a kevesebb paraméterszám csökkentheti a modell "szövegmemóriáját".

Nem csak az O'Reilly Media problémája

A szerzők (O’Reilly mellett Sruly Rosenblat, a Social Science Research Council kutatója, valamint Ilan Strauss, az AI Disclosures Project programigazgatója) tanulmányukban arra akarták felhívni a figyelmet, hogy sürgősen szükség lenne olyan szabályozási keretek kidolgozására, ami nagyobb átláthatóságot biztosít a felhasznált képzési adatforrások tekintetében. Emellett ki kell dolgozni az MI-modellek képzéséhez felhasznált szellemi termékek licencelési kereteit is.

Ha az MI-vállalatok megfelelő kompenzáció nélkül "szívják ki" a tartalomkészítő által előállított anyagokból az értékeket, az szerintük előbb-utóbb oda vezet, hogy éppen azok a források merülnek ki, amelyek létfontosságúak az MI-rendszerek fejlesztéséhez. És ha ez bekövetkezik, az internet tartalmi minősége és sokszínűsége egy lefelé tartó spirálba kerül – festették fel a sötét jövőt.

Piaci hírek

Nem szűnt meg, csak profilt váltott a hírhedt hekkerbanda

A zsarolóvírusos támadásokban utazó Hunters International tavaly novemberben jelentette be megszűnését, de mint kiderült, az online rablók csak profilt váltottak.
 
Körképünkben áttekintjük, hogy szűkebb és bővebb környezetünkben mit sikerült elérni a digitális gazdaság és életvitel felé vezető úton. Spolier: nem állunk olyan rosszul, mint gondolná, és nem állunk olyan jól, mint szeretné.

a melléklet támogatója a One Solutions

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.