A Washington Post beszámolója szerint az MIT, a Cornell Egyetem, a Torontói Egyetem és más intézmények munkatársai betanítottak egy nagy nyelvi modellt (LLM-et) kizárólag nyílt forrású licenccel vagy közkincsként kezelt adatok felhasználásával. A feladat egyáltalán nem volt könnyű, hiszen nem a számítási teljesítmény, hanem az emberi erőforrások jelentették a szűk keresztmetszetet: a több tucat MI-kutatónak egy több mint nyolc terabájtos adathalmazt kellett manuálisan megtisztítania és újraformáznia, hogy a szöveget alkalmassá tegye a mesterséges intelligencia képzésére.
Ahogy a cikkből is kiderül, hihetetlen mennyiségű plusz munkát jelentett az adatok szerzői jogi státuszának ellenőrzése és újraellenőrzése, mivel sok online tartalom nincs megfelelően licencelve. Bár munkájuk során ők is automatizált eszközöket használtak, a manuális annotációt és az egyes személyek ellenőrzését nem úszhatták meg, mire elkészültek a 7 milliárd paraméterrel működő LLM betanításával. Az eredmény azonban magáért beszél, mert állításuk szerint már felveszi a versenyt olyan modellekkel, mint a több mint két évvel ezelőtt kiadott Meta Llama 1 és Llama 2 7B.
Ettől még nem fognak zavarba jönni
Az iparági versenyben ennyi késés persze az örökkévalóságot jelenti, de figyelembe kell venni, hogy egy minden szempontból szétosztott csapatról beszélünk, nem pedig egy dollármilliárdokból működő nagyvállalati egységről. Annyi így is kiderült, hogy az etikus fejlesztés sem lenne annyira reménytelen dolog, mint ahogy azt a technológiai cégek hirdetik. Az OpenAI, a Google és a többiek ugyanis méltányos felhasználásra hivatkozva porszívózta fel a publikus webet, azt hangoztatva, hogy lehetetlenné válna a generatív MI fejlesztése, ha nem használhatnának fel ingyenesen az ott elérhető tartalmat.
A Futurism riportja ehhez azért hozzáteszi azt is, hogy a jogszerű felhasználás sem szünteti meg a technológiával kapcsolatos összes etikai aggályt. A dolog alapvető kifutása továbbra is a munkahelyek megszüntetése marad, és a közkinccsé tett munkák szerzői sem feltétlenül arra gondoltak, hogy alkotásaikat for-profit MI-vállalkozások fogják újrahasznosítani. Abban a kutatók sem bíznak, hogy az etikus adatfelhasználás fogalma az MI-őrület nyomán nem alakul majd át, de reményeik szerint annyi talán kikényszeríthető lesz, hogy senki se rejthesse el, mit használ az egyes modellek betanításához.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak