Az O'Reilly könyvein taníthatták az OpenAI csúcsmodelljét

Bitport2025.04.03.Piaci hírek

Száz százalékig bizonyítani ugyan nehéz, de egy tanulmány szerint erősen valószínűsíthető, hogy a cég átgázolt a szerzői jogokon.

Valószínűsíthetően semmibe vette modelljei betanításakor a szerzői jogokat az OpenAI, állítja egy friss tanulmány (PDF), amely az AI Disclosures Project keretében készült. A teljes képhez hozzátartozik, hogy a tanulmány egyik szerzője Tim O'Reilly, a szakkönyvkiadásra és oktatási tartalmak publikálására szakosodott O'Reilly Media alapítója, és a tesztekhez a kiadó 34 könyvét használták. A kiadványok legálisan nem érhetők el nyilvánosan, legfeljebb illegális online könyvtárakból tölthetők le ingyenesen.

Szembesítés a szövegekkel

A kutatók ugyanazt a tesztet futtatták le három modellen, az GPT-3.5 Turbón, a GPT-4o Minin és a GPT-4o-n. A modelleknek feleletválasztós feladatot kellett megoldaniuk: válasszák ki négy szöveg közül azt, amelyik szó szerinti idézet egy adott O'Reilly-kiadványból. A négy lehetőségből egy eredeti, a többi gépileg generált parafrázis volt. Ha a modell helyesen válaszol, az arra utal, hogy valószínűleg megtanulta az adott szöveget. A válaszokat nem egy az egyben értékelték, hanem azok alapján számították a modellek osztályozási képességeinek értékelésére használt ún. AUROC (Area Under the Receiver Operating Characteristic) viszonyszámot.

Minél magasabb AUROC jött ki, annál nagyobb a valószínűsége, hogy a modellt az adott könyv szövegén képezték. Ha az érték 50 százalék (vagy 0,5 pont) közelében van, akkor inkább az a valószínű, hogy a modell nem "olvasta" a könyvet.

A legjobb eredményt a 2024 májusában megjelent GPT-4o érte el: 82 százalékos teljesítménye erősen valószínűsíti, hogy "látta" a kiadó teszthez kiválasztott könyveit. Maga Tim O'Reilly a kiadó oldalán megjelent ismertetőjében azonban hangsúlyozta: a teszt nem mond semmit arról, hogy az OpenAI honnan szerezhette meg a szövegeket. De persze hozzáteszi: ahogy a Metáról kiderült, hogy kalóz oldalakról szerzett be szerzői joggal védett szövegeket a Llama képzéséhez, úgy megtehette ugyanezt az OpenAI is.

A GPT-3.5 esetében 50 százalék közelében maradt az AUROC értéke, ami arra utal, hogy ott még nem használták a vizsgált könyveket a tanításhoz. Ugyanakkor érdekes módon a GPT-4o Mini sem jeleskedett, pedig azt a 4o modellel egy időben képezték. A tanulmány szerzői ezt azzal magyarázták, hogy a kevesebb paraméterszám csökkentheti a modell "szövegmemóriáját".

Nem csak az O'Reilly Media problémája

A szerzők (O’Reilly mellett Sruly Rosenblat, a Social Science Research Council kutatója, valamint Ilan Strauss, az AI Disclosures Project programigazgatója) tanulmányukban arra akarták felhívni a figyelmet, hogy sürgősen szükség lenne olyan szabályozási keretek kidolgozására, ami nagyobb átláthatóságot biztosít a felhasznált képzési adatforrások tekintetében. Emellett ki kell dolgozni az MI-modellek képzéséhez felhasznált szellemi termékek licencelési kereteit is.

Ha az MI-vállalatok megfelelő kompenzáció nélkül "szívják ki" a tartalomkészítő által előállított anyagokból az értékeket, az szerintük előbb-utóbb oda vezet, hogy éppen azok a források merülnek ki, amelyek létfontosságúak az MI-rendszerek fejlesztéséhez. És ha ez bekövetkezik, az internet tartalmi minősége és sokszínűsége egy lefelé tartó spirálba kerül – festették fel a sötét jövőt.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Piaci hírek

Kisebbfajta csodavárást tükröz a K&H új innovációs indexe

Az index történetében soha nem voltak ennyire optimisták a magyarországi vállalatok. Elkészült a bank választások utáni első felmérése.

A hónap témája

Hogyan vezessük be az MI-t szolgáltatásként?

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Kisebbfajta csodavárást tükröz a K&H új innovációs indexe

Hogyan vezessük be az MI-t szolgáltatásként?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!