A nagy nyelvi modellek (LLM-ek) és más transzformátor architektúrák betanításához használt adatokat kezdetben emberek termelik és állították össze könyvekből, cikkekből, fényképekből és más forrásokdól dolgozva, de ahogy egyre többen fordulnak a mesterséges intelligencia felé a tartalom előállításában, a modellek képzésében is óhatatlanul megjelennek az MI által generált tartalmak – sokszor akár úgy is, hogy az ezért felelős emberek próbálják megkönnyíteni saját munkájukat az új eszközökkel. Márpedig a robotoknak nem erősségük az általuk feldolgozott információ értelmezése, és az újabban közzétett figyelmeztetések szerint ez a gyakorlat visszafordíthatatlan módon teheti tönkre az internetes információs teret, nem beszélve az esetleges rosszhiszemű beavatkozásokról.
Kutatók egy csoportja a közelmúltban publikált egy tanulmányt a jelenségről, amelynek fő megállapítása éppen az, hogy az MI-modellek által generált tartalom felhasználása más modellek tanításában irreverzibilis hibákat okoz az eredményül kapott rendszerekben. A VentuteBeat beszámolója alapján a szöveg-szöveg és kép-kép generátorokat vizsgálva arra jutottak, hogy egy degeneratív folyamatról van szó, ami ideális körülmények között is a modellek gyors összeomlását okozza. Vagyis ha egy MI képzési modellje több másik MI által létrehozott adatnak van kitéve, akkor az egyre kevesebb "nem hibás változatosságot" produkál a kimeneteiben. A kutatók szerint az óceánok szeméttel és a légkör szénvegyületekkel való beszennyezése után most az internetet szórjuk tele halandzsával.
Nem csak a macskák fognak besárgulni
A tanulmány egyik fontos észrevétele, hogy a dolog megnehezíti az újabb modellek betanítását az internetről szerzett adatokkal, ami előnyös helyzetbe hozza a már a pályán lévő cégeket, vagy azokat, amelyek érdemben szabályozzák az emberi interfészekhez való hozzáférést. A tudósok szerint ha egy MI-modellt 10 kék szőrű és 90 sárga szőrű macska képét tartalmazó adatkészleten tanítanak be, akkor az MI elkezdi a kék macskákat is sárgásabbnak mutatni, amelyek így végül bezöldülnek, majd az egymást követő ciklusok során sárgává változnak, a kisebbségi adatjellemzők elvesztése pedig a modell összeomlásához vezet. Ráadásul az MI, ha arra kényszerítik, hogy ne adjon túl sok ismétlődő választ, akkor annak elkerülésére egyszerűen elkezd hibás válaszokat kitalálni.
Könnyű belátni, hogy mindez a macskák színén túl nagyon komoly következményekkel járhat a nemen, etnikai hovatartozáson vagy más érzékeny tulajdonságokon alapuló megkülönböztetésre nézve. A kutatók szerint még ha az eredeti, emberek által válogatott adatok 10 százalékát fel is használják az MI következő generációinak a képzésében, a csődöt akkor sem lehet elkerülni, legfeljebb később válik nyilvánvalóvá. Így szükségesnek tartják az első, eredeti adatkészletek másolatainak megőrzését, vagy új, tisztán emberek által generált adatokat vezetnének vissza a tanítási folyamatba. Ehhez azonban valamilyen általános címkézési mechanizmusra lenne szükség a tartalomgyártók részéről, és az MI-fejlesztőknek is különbséget kellene tenniük az adatok között.
Mindez természetesen nem triviális, és jelenleg nem is létezik erre irányuló, megbízható vagy nagyszabású online erőfeszítés. A kutatók javaslatainak részletes ismertetése a VentureBeat oldalán olvasható »
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak