Az O'Reilly könyvein taníthatták az OpenAI csúcsmodelljét

Bitport2025.04.03.Piaci hírek

Száz százalékig bizonyítani ugyan nehéz, de egy tanulmány szerint erősen valószínűsíthető, hogy a cég átgázolt a szerzői jogokon.

Valószínűsíthetően semmibe vette modelljei betanításakor a szerzői jogokat az OpenAI, állítja egy friss tanulmány (PDF), amely az AI Disclosures Project keretében készült. A teljes képhez hozzátartozik, hogy a tanulmány egyik szerzője Tim O'Reilly, a szakkönyvkiadásra és oktatási tartalmak publikálására szakosodott O'Reilly Media alapítója, és a tesztekhez a kiadó 34 könyvét használták. A kiadványok legálisan nem érhetők el nyilvánosan, legfeljebb illegális online könyvtárakból tölthetők le ingyenesen.

Szembesítés a szövegekkel

A kutatók ugyanazt a tesztet futtatták le három modellen, az GPT-3.5 Turbón, a GPT-4o Minin és a GPT-4o-n. A modelleknek feleletválasztós feladatot kellett megoldaniuk: válasszák ki négy szöveg közül azt, amelyik szó szerinti idézet egy adott O'Reilly-kiadványból. A négy lehetőségből egy eredeti, a többi gépileg generált parafrázis volt. Ha a modell helyesen válaszol, az arra utal, hogy valószínűleg megtanulta az adott szöveget. A válaszokat nem egy az egyben értékelték, hanem azok alapján számították a modellek osztályozási képességeinek értékelésére használt ún. AUROC (Area Under the Receiver Operating Characteristic) viszonyszámot.

Minél magasabb AUROC jött ki, annál nagyobb a valószínűsége, hogy a modellt az adott könyv szövegén képezték. Ha az érték 50 százalék (vagy 0,5 pont) közelében van, akkor inkább az a valószínű, hogy a modell nem "olvasta" a könyvet.

A legjobb eredményt a 2024 májusában megjelent GPT-4o érte el: 82 százalékos teljesítménye erősen valószínűsíti, hogy "látta" a kiadó teszthez kiválasztott könyveit. Maga Tim O'Reilly a kiadó oldalán megjelent ismertetőjében azonban hangsúlyozta: a teszt nem mond semmit arról, hogy az OpenAI honnan szerezhette meg a szövegeket. De persze hozzáteszi: ahogy a Metáról kiderült, hogy kalóz oldalakról szerzett be szerzői joggal védett szövegeket a Llama képzéséhez, úgy megtehette ugyanezt az OpenAI is.

A GPT-3.5 esetében 50 százalék közelében maradt az AUROC értéke, ami arra utal, hogy ott még nem használták a vizsgált könyveket a tanításhoz. Ugyanakkor érdekes módon a GPT-4o Mini sem jeleskedett, pedig azt a 4o modellel egy időben képezték. A tanulmány szerzői ezt azzal magyarázták, hogy a kevesebb paraméterszám csökkentheti a modell "szövegmemóriáját".

Nem csak az O'Reilly Media problémája

A szerzők (O’Reilly mellett Sruly Rosenblat, a Social Science Research Council kutatója, valamint Ilan Strauss, az AI Disclosures Project programigazgatója) tanulmányukban arra akarták felhívni a figyelmet, hogy sürgősen szükség lenne olyan szabályozási keretek kidolgozására, ami nagyobb átláthatóságot biztosít a felhasznált képzési adatforrások tekintetében. Emellett ki kell dolgozni az MI-modellek képzéséhez felhasznált szellemi termékek licencelési kereteit is.

Ha az MI-vállalatok megfelelő kompenzáció nélkül "szívják ki" a tartalomkészítő által előállított anyagokból az értékeket, az szerintük előbb-utóbb oda vezet, hogy éppen azok a források merülnek ki, amelyek létfontosságúak az MI-rendszerek fejlesztéséhez. És ha ez bekövetkezik, az internet tartalmi minősége és sokszínűsége egy lefelé tartó spirálba kerül – festették fel a sötét jövőt.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Piaci hírek

Trump vámháborúja egészen olyan, mintha egy MI-chatbot találta volna ki

Természetesen egybeesés is lehet, hogy a szerdán bejelentett, "átfogó és kölcsönös vámok" éppen azon a képleten alapulnak, amilyet a népszerű MI-chatbotok is adnak, ha utasítást kapnak a feladat megoldására.

A hónap témája

Hol tart a digitális átalakulás Európában és Magyarországon?

Körképünkben áttekintjük, hogy szűkebb és bővebb környezetünkben mit sikerült elérni a digitális gazdaság és életvitel felé vezető úton. Spolier: nem állunk olyan rosszul, mint gondolná, és nem állunk olyan jól, mint szeretné.

a melléklet támogatója a One Solutions

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Trump vámháborúja egészen olyan, mintha egy MI-chatbot találta volna ki

Hol tart a digitális átalakulás Európában és Magyarországon?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia