Kiderült, hogy szükségszerűen összeomlanak az egymástól tanuló MI-modellek

Bitport2023.06.30.Cloud & big data

Sőt minket is magukkal rántanak, ha nem figyelünk oda. Egy új kutatás az ellenőrizetlen generatív folyamatok kockázataira hívja fel a figyelmet, és javaslatokat is tesz a szükséges stratégiák kidolgozására.

A nagy nyelvi modellek (LLM-ek) és más transzformátor architektúrák betanításához használt adatokat kezdetben emberek termelik és állították össze könyvekből, cikkekből, fényképekből és más forrásokdól dolgozva, de ahogy egyre többen fordulnak a mesterséges intelligencia felé a tartalom előállításában, a modellek képzésében is óhatatlanul megjelennek az MI által generált tartalmak – sokszor akár úgy is, hogy az ezért felelős emberek próbálják megkönnyíteni saját munkájukat az új eszközökkel. Márpedig a robotoknak nem erősségük az általuk feldolgozott információ értelmezése, és az újabban közzétett figyelmeztetések szerint ez a gyakorlat visszafordíthatatlan módon teheti tönkre az internetes információs teret, nem beszélve az esetleges rosszhiszemű beavatkozásokról.

Kutatók egy csoportja a közelmúltban publikált egy tanulmányt a jelenségről, amelynek fő megállapítása éppen az, hogy az MI-modellek által generált tartalom felhasználása más modellek tanításában irreverzibilis hibákat okoz az eredményül kapott rendszerekben. A VentuteBeat beszámolója alapján a szöveg-szöveg és kép-kép generátorokat vizsgálva arra jutottak, hogy egy degeneratív folyamatról van szó, ami ideális körülmények között is a modellek gyors összeomlását okozza. Vagyis ha egy MI képzési modellje több másik MI által létrehozott adatnak van kitéve, akkor az egyre kevesebb "nem hibás változatosságot" produkál a kimeneteiben. A kutatók szerint az óceánok szeméttel és a légkör szénvegyületekkel való beszennyezése után most az internetet szórjuk tele halandzsával.

Nem csak a macskák fognak besárgulni

A tanulmány egyik fontos észrevétele, hogy a dolog megnehezíti az újabb modellek betanítását az internetről szerzett adatokkal, ami előnyös helyzetbe hozza a már a pályán lévő cégeket, vagy azokat, amelyek érdemben szabályozzák az emberi interfészekhez való hozzáférést. A tudósok szerint ha egy MI-modellt 10 kék szőrű és 90 sárga szőrű macska képét tartalmazó adatkészleten tanítanak be, akkor az MI elkezdi a kék macskákat is sárgásabbnak mutatni, amelyek így végül bezöldülnek, majd az egymást követő ciklusok során sárgává változnak, a kisebbségi adatjellemzők elvesztése pedig a modell összeomlásához vezet. Ráadásul az MI, ha arra kényszerítik, hogy ne adjon túl sok ismétlődő választ, akkor annak elkerülésére egyszerűen elkezd hibás válaszokat kitalálni.

Könnyű belátni, hogy mindez a macskák színén túl nagyon komoly következményekkel járhat a nemen, etnikai hovatartozáson vagy más érzékeny tulajdonságokon alapuló megkülönböztetésre nézve. A kutatók szerint még ha az eredeti, emberek által válogatott adatok 10 százalékát fel is használják az MI következő generációinak a képzésében, a csődöt akkor sem lehet elkerülni, legfeljebb később válik nyilvánvalóvá. Így szükségesnek tartják az első, eredeti adatkészletek másolatainak megőrzését, vagy új, tisztán emberek által generált adatokat vezetnének vissza a tanítási folyamatba. Ehhez azonban valamilyen általános címkézési mechanizmusra lenne szükség a tartalomgyártók részéről, és az MI-fejlesztőknek is különbséget kellene tenniük az adatok között.

Mindez természetesen nem triviális, és jelenleg nem is létezik erre irányuló, megbízható vagy nagyszabású online erőfeszítés. A kutatók javaslatainak részletes ismertetése a VentureBeat oldalán olvasható »

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Sajnos egyes rendőrök is rákaptak a generatív algoritmusokra

A legutóbbi ügy Nagy-Britanniában bukott ki, ahol a feltételezések szerint egy rendőr mesterséges intelligencia segítségével gyártott hamis bizonyítékokat.

A hónap témája

Hogyan vezessük be az MI-t szolgáltatásként?

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Sajnos egyes rendőrök is rákaptak a generatív algoritmusokra

Hogyan vezessük be az MI-t szolgáltatásként?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!