Valószínűsíthetően semmibe vette modelljei betanításakor a szerzői jogokat az OpenAI, állítja egy friss tanulmány (PDF), amely az AI Disclosures Project keretében készült. A teljes képhez hozzátartozik, hogy a tanulmány egyik szerzője Tim O'Reilly, a szakkönyvkiadásra és oktatási tartalmak publikálására szakosodott O'Reilly Media alapítója, és a tesztekhez a kiadó 34 könyvét használták. A kiadványok legálisan nem érhetők el nyilvánosan, legfeljebb illegális online könyvtárakból tölthetők le ingyenesen.
Szembesítés a szövegekkel
A kutatók ugyanazt a tesztet futtatták le három modellen, az GPT-3.5 Turbón, a GPT-4o Minin és a GPT-4o-n. A modelleknek feleletválasztós feladatot kellett megoldaniuk: válasszák ki négy szöveg közül azt, amelyik szó szerinti idézet egy adott O'Reilly-kiadványból. A négy lehetőségből egy eredeti, a többi gépileg generált parafrázis volt. Ha a modell helyesen válaszol, az arra utal, hogy valószínűleg megtanulta az adott szöveget. A válaszokat nem egy az egyben értékelték, hanem azok alapján számították a modellek osztályozási képességeinek értékelésére használt ún. AUROC (Area Under the Receiver Operating Characteristic) viszonyszámot.
Minél magasabb AUROC jött ki, annál nagyobb a valószínűsége, hogy a modellt az adott könyv szövegén képezték. Ha az érték 50 százalék (vagy 0,5 pont) közelében van, akkor inkább az a valószínű, hogy a modell nem "olvasta" a könyvet.
A legjobb eredményt a 2024 májusában megjelent GPT-4o érte el: 82 százalékos teljesítménye erősen valószínűsíti, hogy "látta" a kiadó teszthez kiválasztott könyveit. Maga Tim O'Reilly a kiadó oldalán megjelent ismertetőjében azonban hangsúlyozta: a teszt nem mond semmit arról, hogy az OpenAI honnan szerezhette meg a szövegeket. De persze hozzáteszi: ahogy a Metáról kiderült, hogy kalóz oldalakról szerzett be szerzői joggal védett szövegeket a Llama képzéséhez, úgy megtehette ugyanezt az OpenAI is.
A GPT-3.5 esetében 50 százalék közelében maradt az AUROC értéke, ami arra utal, hogy ott még nem használták a vizsgált könyveket a tanításhoz. Ugyanakkor érdekes módon a GPT-4o Mini sem jeleskedett, pedig azt a 4o modellel egy időben képezték. A tanulmány szerzői ezt azzal magyarázták, hogy a kevesebb paraméterszám csökkentheti a modell "szövegmemóriáját".
Nem csak az O'Reilly Media problémája
A szerzők (O’Reilly mellett Sruly Rosenblat, a Social Science Research Council kutatója, valamint Ilan Strauss, az AI Disclosures Project programigazgatója) tanulmányukban arra akarták felhívni a figyelmet, hogy sürgősen szükség lenne olyan szabályozási keretek kidolgozására, ami nagyobb átláthatóságot biztosít a felhasznált képzési adatforrások tekintetében. Emellett ki kell dolgozni az MI-modellek képzéséhez felhasznált szellemi termékek licencelési kereteit is.
Ha az MI-vállalatok megfelelő kompenzáció nélkül "szívják ki" a tartalomkészítő által előállított anyagokból az értékeket, az szerintük előbb-utóbb oda vezet, hogy éppen azok a források merülnek ki, amelyek létfontosságúak az MI-rendszerek fejlesztéséhez. És ha ez bekövetkezik, az internet tartalmi minősége és sokszínűsége egy lefelé tartó spirálba kerül – festették fel a sötét jövőt.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak