A Epoch AI non-profit kutatócsoport csütörtökön közzétett tanulmánya alapján akár már 2026-ra, de legkésőbb 2032-re teljesen kimerülhetnek majd a nyilvánosan elérhető, emberek által előállított képzési adatok a nagy nyelvi modellekhez (LLM). Az olyan technológiai vállalatok, mint a Google vagy az OpenAI, már szerződéseket kötnek és fizetni is hajlandóak a médiavállalatoknak vagy közösségi szolgáltatóknak a jó minőségű adatforrásokért. Hosszabb távon azonban még így sem áll majd rendelkezésükre megfelelő mennyiségű blogbejegyzés, online cikk vagy hozzászólás ahhoz, hogy fenntarthassák a mesterséges intelligencia fejlődésének jelenlegi ütemét.
Az általuk alkalmazott megközelítés két kulcsfontosságú összetevőre alapul: a számítási teljesítményre és az internetes adatok kimeríthetetlen áramlására. Utóbbiak felhasználása azonban évente két és félszeresére növekszik, és a fejlesztők lassan beleütköznek azokba a nagyságrendi korlátokba, akkor már nem tudják hatékonyan bővíteni a modelleket. Ez akkor is problémát jelent az MI képességeinek kiszélesítésében és teljesítményének javításában, ha újabb és újabb technikákat vetnek be a rendelkezésre álló adatok hatékonyabb felhasználására és a modellek betanítására, hogy fenntrathassák az aranylázra emlékeztető felhajtást.
Amikor csak a befektetők számítanak
A dolog egyik következménye, hogy egyre nagyobb nyomás nehezedik az érintett vállalatokra a privát személyes adatokhoz (így az e-mailekhez vagy a szöveges üzenetekhez) való hozzáférés kimódolására, és egyre nagyobb arányban lesznek kénytelenek az ugyancsak mesterséges intelligenciával létrehozott, szintetikus adatokra támaszkodni. Az Epoch AI szerint mindenképpen egy "súlyosan szűk keresztmetszet" rajzolódik ki, bár ez nem feltétlenül lenne aggasztó, ha nem erőltetné mindenki a "disztribúción kívüli működést", vagyis az egyre nagyobb és nagyobb modellek képzése helyett inkább meghatározott feladatokra specializált megoldásokat fejlesztene.
A leginkább aggasztónak a mostani tanulmány szerzői is azt a jelenséget tartják, amikor a generatív MI-rendszereket ugyanazokon a kimeneteken tanítják be, amelyeket ők maguk termelnek. Ez ugyanis a teljesítményük látványos romlásához és a modellek szükségszerű összeomlásához vezető, amit ahhoz hasonlítanak, mint amikor egy papírt fénymásolnak, majd a fénymásolatot is fénymásolják és így tovább. Az MI esetében ráadásul nem csak a kópiák minősége lesz egyre gyengébb, de ennek eredményeképpen a bennük felbukkanó hibák és elfogultság is kigyomlálhatatlanul gyökeret vernek majd a netes információs ökoszisztémában.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak