Egyre nagyobb mennyiségre lenne szükség az egyre nehezebben összegyűjthető képzési adatokból, és a szintetikus adatok gyártása sem tűnik tökéletes megoldásnak, mert az egymástól tanuló MI-modellek könnyen összeomlanak.

Hosszú ideje olvashatók figyelmeztetések azzal kapcsolatban, hogy a nagy nyelvi modellek (LLM-ek) belátható időn belül kifogyhatnak a képzésükhöz használt adatokból. Az online erőforrások sem vég nélküliek, a tartalom begyűjtését és felhasználását pedig amúgy is egyre szigorúbban ellenőrzik, ezért a nyilvános online források egyre szűkülnek, miközben a generatív mesterséges intelligencia fejlesztéséhez egyre több adatra lenne szükség. Már másfél évvel ezelőtt is megjelent olyan előrejelzés, amelynek alapján a gépi tanuló rendszerek 2026 előtt kimeríthetik a jó minőségű nyelvi adatokat.

Utóbbiak összeállításában híroldalakra, könyvekre, tudományos cikkekre, Wikipédia-bejegyzésekre vagy a szűrt webes tartalomra támaszkodnak, az egyre nagyobb és jobb modelleket építő vállalatok pedig lassan beleütköznek abba a problémába, hogy szó szerint az internet sem lesz elég nagy hozzá, hogy ellássa őket a szükséges mennyiségű információval. Legutóbb a The Wall Street Journal közölt róla összeállítást, hogy néhányan azt kutatják, miként lehetne nagyobb és intelligensebb modelleket képezni kevesebb adattal, de a legtöbben inkább alternatív adatforrásokat keresnek.

Nem biztos, hogy jó az irány

Ilyenek az ugyancsak mesterséges intelligenciával létrehozott, szintetikus adatok, amelyek sok vitát gerjesztettek az elmúlt időszakban. Bár ez a megközelítés elvileg gazdaságosabb, és mélyebb megértést biztosíthat a mesterséges intelligenciának a mögöttes fogalmakat illetően, a kritikusok olyan degeneratív folyamatról beszélnek, ami ideális körülmények között is a modellek gyors összeomlását okozza. Az egyik kutató nemrég Habsburg MI-ként hivatkozott az olyan rendszerekre, amelyek képzésében más generatív MI-k kimeneteire támaszkodnak, és ezzel irreverzibilis hibákat okoznak bennük.

Mindezt az érintett vállalatok jobb minőségű szintetikus adatok létrehozásával próbálják megelőzni, de a részletekbe természetesen egyikük sem megy bele, hogy mindezt hogyan valósítaná meg. Léteznek ugyan megfelelő felhasználási esetek a szintetikus adatok számára is, de a WSJ szerint így is komoly akadályról van szó a hatalmas, "mindenhez is értő" modellek fejlesztésében. Ezek helyett az olyan modellek építése felé fordulhatnak, amelyeket bizonyos feladatokra képeznek ki meghatározott adatkészleteken, mivel ezek sokkal olcsóbbak és hatékonyabbak is lesznek a maguk területén.

Cloud & big data

Meglepetés! Elhülyít minket a ChatGPT használata

Az MIT tudósainak frissen publikált kutatása megerősíti azokat az aggodalmakat, miszerint annyira nem tesz jót az agyműködésünknek, ha túlzottan a generatív algoritmusokra bízzuk magunkat.
 
Hirdetés

Cyber Threat Intelligence: üzleti előny a sötét adatokból

Egyetlen kompromittált jelszó. Egy belépési pont, amit már nem használnak. Egy korábbi alkalmazott adatszivárgása. Ezek ma már nem csupán technikai hibák, hanem valós üzleti fenyegetések, amelyek a digitális alvilág piacán előbb bukkannak fel, mint ahogy a cég egyáltalán észrevenné.

A digitális támadások célpontjai ma már nem feltétlenül azok a vállalatok, amelyektől a támadók adatokat vagy pénzt akarnak szerezni. Elég, ha a támadás egyik láncszeme nem védett – az elkövetők ezen keresztül lépnek be a rendszerbe. És ez a láncszem gyakran nem is belül van.

a melléklet támogatója a One Solutions

Hirdetés

Miért kell az üzleti intelligenciának megelőznie az MI bevezetését?

A felfokozott várakozásokhoz képest kiábrándító az MI-bevezetések valósága, ebben pedig a fő bűnös a rossz adatminőség és nem megfelelő adatinfrastruktúra.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.