Kiderült, hogy szükségszerűen összeomlanak az egymástól tanuló MI-modellek

Bitport2023.06.30.Cloud & big data

Sőt minket is magukkal rántanak, ha nem figyelünk oda. Egy új kutatás az ellenőrizetlen generatív folyamatok kockázataira hívja fel a figyelmet, és javaslatokat is tesz a szükséges stratégiák kidolgozására.

A nagy nyelvi modellek (LLM-ek) és más transzformátor architektúrák betanításához használt adatokat kezdetben emberek termelik és állították össze könyvekből, cikkekből, fényképekből és más forrásokdól dolgozva, de ahogy egyre többen fordulnak a mesterséges intelligencia felé a tartalom előállításában, a modellek képzésében is óhatatlanul megjelennek az MI által generált tartalmak – sokszor akár úgy is, hogy az ezért felelős emberek próbálják megkönnyíteni saját munkájukat az új eszközökkel. Márpedig a robotoknak nem erősségük az általuk feldolgozott információ értelmezése, és az újabban közzétett figyelmeztetések szerint ez a gyakorlat visszafordíthatatlan módon teheti tönkre az internetes információs teret, nem beszélve az esetleges rosszhiszemű beavatkozásokról.

Kutatók egy csoportja a közelmúltban publikált egy tanulmányt a jelenségről, amelynek fő megállapítása éppen az, hogy az MI-modellek által generált tartalom felhasználása más modellek tanításában irreverzibilis hibákat okoz az eredményül kapott rendszerekben. A VentuteBeat beszámolója alapján a szöveg-szöveg és kép-kép generátorokat vizsgálva arra jutottak, hogy egy degeneratív folyamatról van szó, ami ideális körülmények között is a modellek gyors összeomlását okozza. Vagyis ha egy MI képzési modellje több másik MI által létrehozott adatnak van kitéve, akkor az egyre kevesebb "nem hibás változatosságot" produkál a kimeneteiben. A kutatók szerint az óceánok szeméttel és a légkör szénvegyületekkel való beszennyezése után most az internetet szórjuk tele halandzsával.

Nem csak a macskák fognak besárgulni

A tanulmány egyik fontos észrevétele, hogy a dolog megnehezíti az újabb modellek betanítását az internetről szerzett adatokkal, ami előnyös helyzetbe hozza a már a pályán lévő cégeket, vagy azokat, amelyek érdemben szabályozzák az emberi interfészekhez való hozzáférést. A tudósok szerint ha egy MI-modellt 10 kék szőrű és 90 sárga szőrű macska képét tartalmazó adatkészleten tanítanak be, akkor az MI elkezdi a kék macskákat is sárgásabbnak mutatni, amelyek így végül bezöldülnek, majd az egymást követő ciklusok során sárgává változnak, a kisebbségi adatjellemzők elvesztése pedig a modell összeomlásához vezet. Ráadásul az MI, ha arra kényszerítik, hogy ne adjon túl sok ismétlődő választ, akkor annak elkerülésére egyszerűen elkezd hibás válaszokat kitalálni.

Könnyű belátni, hogy mindez a macskák színén túl nagyon komoly következményekkel járhat a nemen, etnikai hovatartozáson vagy más érzékeny tulajdonságokon alapuló megkülönböztetésre nézve. A kutatók szerint még ha az eredeti, emberek által válogatott adatok 10 százalékát fel is használják az MI következő generációinak a képzésében, a csődöt akkor sem lehet elkerülni, legfeljebb később válik nyilvánvalóvá. Így szükségesnek tartják az első, eredeti adatkészletek másolatainak megőrzését, vagy új, tisztán emberek által generált adatokat vezetnének vissza a tanítási folyamatba. Ehhez azonban valamilyen általános címkézési mechanizmusra lenne szükség a tartalomgyártók részéről, és az MI-fejlesztőknek is különbséget kellene tenniük az adatok között.

Mindez természetesen nem triviális, és jelenleg nem is létezik erre irányuló, megbízható vagy nagyszabású online erőfeszítés. A kutatók javaslatainak részletes ismertetése a VentureBeat oldalán olvasható »

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Szabadon kipróbálható a Google legfejlettebb videógeneráló modellje

A YouTube videók millióin pallérozott Veo 3 képességeit a Google Cloud részeként mostantól bárki letesztelheti.

Hirdetés

Így újult meg Magyarország leggyorsabb mobilhálózata

Közel 100 milliárd forintos beruházással, a rádiós és maghálózat teljes modernizációjával zárult le a Yettel történetének egyik legnagyobb műszaki fejlesztése.

A hónap témája

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

A kompromittált rendszerek, a dark weben felbukkanó ügyféladatok vagy a zsarolóvírus-kampányok következményei már a vezérigazgatói és pénzügyi igazgatói irodában csapódnak le – jogi, reputációs és üzleti szinten is. Lehet és kell is védekezni ellene.

a melléklet támogatója a One Solutions

Hirdetés

Cyber Threat Intelligence: üzleti előny a sötét adatokból

Egyetlen kompromittált jelszó. Egy belépési pont, amit már nem használnak. Egy korábbi alkalmazott adatszivárgása. Ezek ma már nem csupán technikai hibák, hanem valós üzleti fenyegetések, amelyek a digitális alvilág piacán előbb bukkannak fel, mint ahogy a cég egyáltalán észrevenné.

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Szabadon kipróbálható a Google legfejlettebb videógeneráló modellje

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia