A Epoch AI non-profit kutatócsoport csütörtökön közzétett tanulmánya alapján akár már 2026-ra, de legkésőbb 2032-re teljesen kimerülhetnek majd a nyilvánosan elérhető, emberek által előállított képzési adatok a nagy nyelvi modellekhez (LLM). Az olyan technológiai vállalatok, mint a Google vagy az OpenAI, már szerződéseket kötnek és fizetni is hajlandóak a médiavállalatoknak vagy közösségi szolgáltatóknak a jó minőségű adatforrásokért. Hosszabb távon azonban még így sem áll majd rendelkezésükre megfelelő mennyiségű blogbejegyzés, online cikk vagy hozzászólás ahhoz, hogy fenntarthassák a mesterséges intelligencia fejlődésének jelenlegi ütemét.
Az általuk alkalmazott megközelítés két kulcsfontosságú összetevőre alapul: a számítási teljesítményre és az internetes adatok kimeríthetetlen áramlására. Utóbbiak felhasználása azonban évente két és félszeresére növekszik, és a fejlesztők lassan beleütköznek azokba a nagyságrendi korlátokba, akkor már nem tudják hatékonyan bővíteni a modelleket. Ez akkor is problémát jelent az MI képességeinek kiszélesítésében és teljesítményének javításában, ha újabb és újabb technikákat vetnek be a rendelkezésre álló adatok hatékonyabb felhasználására és a modellek betanítására, hogy fenntrathassák az aranylázra emlékeztető felhajtást.
Amikor csak a befektetők számítanak
A dolog egyik következménye, hogy egyre nagyobb nyomás nehezedik az érintett vállalatokra a privát személyes adatokhoz (így az e-mailekhez vagy a szöveges üzenetekhez) való hozzáférés kimódolására, és egyre nagyobb arányban lesznek kénytelenek az ugyancsak mesterséges intelligenciával létrehozott, szintetikus adatokra támaszkodni. Az Epoch AI szerint mindenképpen egy "súlyosan szűk keresztmetszet" rajzolódik ki, bár ez nem feltétlenül lenne aggasztó, ha nem erőltetné mindenki a "disztribúción kívüli működést", vagyis az egyre nagyobb és nagyobb modellek képzése helyett inkább meghatározott feladatokra specializált megoldásokat fejlesztene.
A leginkább aggasztónak a mostani tanulmány szerzői is azt a jelenséget tartják, amikor a generatív MI-rendszereket ugyanazokon a kimeneteken tanítják be, amelyeket ők maguk termelnek. Ez ugyanis a teljesítményük látványos romlásához és a modellek szükségszerű összeomlásához vezető, amit ahhoz hasonlítanak, mint amikor egy papírt fénymásolnak, majd a fénymásolatot is fénymásolják és így tovább. Az MI esetében ráadásul nem csak a kópiák minősége lesz egyre gyengébb, de ennek eredményeképpen a bennük felbukkanó hibák és elfogultság is kigyomlálhatatlanul gyökeret vernek majd a netes információs ökoszisztémában.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak