Száz százalékig bizonyítani ugyan nehéz, de egy tanulmány szerint erősen valószínűsíthető, hogy a cég átgázolt a szerzői jogokon.

Valószínűsíthetően semmibe vette modelljei betanításakor a szerzői jogokat az OpenAI, állítja egy friss tanulmány (PDF), amely az AI Disclosures Project keretében készült. A teljes képhez hozzátartozik, hogy a tanulmány egyik szerzője Tim O'Reilly, a szakkönyvkiadásra és oktatási tartalmak publikálására szakosodott O'Reilly Media alapítója, és a tesztekhez a kiadó 34 könyvét használták. A kiadványok legálisan nem érhetők el nyilvánosan, legfeljebb illegális online könyvtárakból tölthetők le ingyenesen.

Szembesítés a szövegekkel

A kutatók ugyanazt a tesztet futtatták le három modellen, az GPT-3.5 Turbón, a GPT-4o Minin és a GPT-4o-n. A modelleknek feleletválasztós feladatot kellett megoldaniuk: válasszák ki négy szöveg közül azt, amelyik szó szerinti idézet egy adott O'Reilly-kiadványból. A négy lehetőségből egy eredeti, a többi gépileg generált parafrázis volt. Ha a modell helyesen válaszol, az arra utal, hogy valószínűleg megtanulta az adott szöveget. A válaszokat nem egy az egyben értékelték, hanem azok alapján számították a modellek osztályozási képességeinek értékelésére használt ún. AUROC (Area Under the Receiver Operating Characteristic) viszonyszámot.

Minél magasabb AUROC jött ki, annál nagyobb a valószínűsége, hogy a modellt az adott könyv szövegén képezték. Ha az érték 50 százalék (vagy 0,5 pont) közelében van, akkor inkább az a valószínű, hogy a modell nem "olvasta" a könyvet.

A legjobb eredményt a 2024 májusában megjelent GPT-4o érte el: 82 százalékos teljesítménye erősen valószínűsíti, hogy "látta" a kiadó teszthez kiválasztott könyveit. Maga Tim O'Reilly a kiadó oldalán megjelent ismertetőjében azonban hangsúlyozta: a teszt nem mond semmit arról, hogy az OpenAI honnan szerezhette meg a szövegeket. De persze hozzáteszi: ahogy a Metáról kiderült, hogy kalóz oldalakról szerzett be szerzői joggal védett szövegeket a Llama képzéséhez, úgy megtehette ugyanezt az OpenAI is.

A GPT-3.5 esetében 50 százalék közelében maradt az AUROC értéke, ami arra utal, hogy ott még nem használták a vizsgált könyveket a tanításhoz. Ugyanakkor érdekes módon a GPT-4o Mini sem jeleskedett, pedig azt a 4o modellel egy időben képezték. A tanulmány szerzői ezt azzal magyarázták, hogy a kevesebb paraméterszám csökkentheti a modell "szövegmemóriáját".

Nem csak az O'Reilly Media problémája

A szerzők (O’Reilly mellett Sruly Rosenblat, a Social Science Research Council kutatója, valamint Ilan Strauss, az AI Disclosures Project programigazgatója) tanulmányukban arra akarták felhívni a figyelmet, hogy sürgősen szükség lenne olyan szabályozási keretek kidolgozására, ami nagyobb átláthatóságot biztosít a felhasznált képzési adatforrások tekintetében. Emellett ki kell dolgozni az MI-modellek képzéséhez felhasznált szellemi termékek licencelési kereteit is.

Ha az MI-vállalatok megfelelő kompenzáció nélkül "szívják ki" a tartalomkészítő által előállított anyagokból az értékeket, az szerintük előbb-utóbb oda vezet, hogy éppen azok a források merülnek ki, amelyek létfontosságúak az MI-rendszerek fejlesztéséhez. És ha ez bekövetkezik, az internet tartalmi minősége és sokszínűsége egy lefelé tartó spirálba kerül – festették fel a sötét jövőt.

Piaci hírek

Az MI-vállalatoknak is forró pite a Meta bírósági vesszőfutása

Nagyjából azt az érvelést tesztelték a napokban hozott elmarasztaló ítéletek a közösségi média szándékos vagy gondatlan károkozásáról, ami a mesterséges intelligenciával kapcsolatos perekben is megjelenik.
 
Nincs egy új, "alapértelmezett" platform a VMware mellett, helyett; az informatikai vezetők egy, a korábbinál jelentősen összetettebb döntési helyzetben találják magukat 2026-ban. Cikkünk arra a kérdésre keresi a választ, hogy milyen lehetőségek közül választhatnak a CIO-k.

a melléklet támogatója az EURO ONE

Hirdetés

HPE Morpheus VM Essentials: a virtualizáció arany középútja

Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.