Egy adattudós szerint rosszul tesztelték azt a gépi tanuló modellt, ami bámulatosan pontos eredményeket produkált a földrengések előrejelzésében. A megszólított kutatók és a cikküket megjelentető Nature magazin szerint ebben a speciális esetben minden rendben van.
Hirdetés
 

Majdnem egy évvel ezelőtt mi is beszámoltunk a Google MI-kutató részlege, a Harvard Egyetem és a Connecticuti Egyetem közös projektjéről, melynek során a tudósok egy új mesterségesintelligencia-modellt hoztak létre a földrengések előrejelzésére. A rendszer az akkori hírek szerint nagy pontossággal jósolta meg az utórengések helyét, akár az adott események egy éves távlatában is. A Nature magazinban 2018 augusztusában publikált anyag szerint a modellt majdnem 200 jelentősebb földmozgás és az azokat követő 130 ezer utórengés adatain tanították, és a jelenleg használt módszereknél hatékonyabban prognosztizálta az utórengéseket, amelyekből több ezer is követhet egy-egy főrengést.

A Nature magazin cikke alapján az algoritmus tanítására használt adatkészlet az elmúlt évtizedek legnagyobb makroszeizmikus rengéseit dolgozta fel, így a különböző főrengések epicentrumának vertikálisan 50, horizontálisan 100 kilométeres körzetében gyűjtött információt tartalmazott. A mintában szerepeltek a 2011-es japán vagy a 2004-es szumátrai rengések, de felbukkantak benne az 1989-es San Franciscó-i vagy az 1994-es Los Angeles-i események is.

A modell predikciós képességét elvileg véletlenszerűen kiválasztott és visszatartott főrengés-utórengés szekvenciákon validálták, előrejelzéseinek 98 százaléka pedig fizikailag is magyarázható – ez a szakemberek szerint azért is érdekes, mert korábban a statisztikai alapú előrejelzések általában pontosabbnak bizonyultak a fizikai alapúaknál. A megggyőző eredményeket azonban nemrég megkérdőjelezték, egyben rámutatva a gépi tanuló rendszerek egyik fontos problémájára.

A bostoni DataRobot szoftverház adattudósa, Rajiv Shah szerint a data leakage (kb adatszivárgás) nevű jelenségről van szó, ami ebben az esetben nem a bizalmas adatok védett környezetből való kijutását jelenti, hanem a tanításhoz és a teszteléshez használt adatok valamilyen szintű átfedését. Ez a mélytanuló algoritmusok esetében nyilvánvalóan értéktelenné teszi az eredményeket, hiszen a prediktív modellek haszna éppen a generalizált következtetések új mintákon való alkalmazása lenne, nem pedig a megtanult lecke hibátlan felmondása.

Shah a fenti publikációban szereplő neurális hálózat gyanúsan magas hatékonysága miatt kezdte el átnézni az eredményeket, és megpróbálta reprodukálni a kísérletet is. Ennek során azt tapasztalta, hogy a program a fenti hiba miatt meg nem engedhető előnnyel dolgozott, a tesztkészlet nem volt teljesen független a betanításhoz használt mintáktól, így állítása szerint nem létezik olyan metrika, amelynek alapján a modell tényleges teljesítményére következtethetnek a való világban felmerülő új esetekben.

A hype nem tesz jót a technológiák fejlődésének

Az adattudós a szerzőknek és a Nature magazinnak is jelezte kifogásait, kiemelve, hogy mindennek alapján mégsem állítható, hogy a neurális hálózatok pillanatnyilag hatékonyabban lennének képesek előrejelezni az utórengéseket, mint mondjuk a hagyományosan alkalmazott, CFS rendszerű vizsgálatok. Első körben a szerzőktől nem kapott választ, a Nature pedig teljes egészében elutasította az észrevételt, miután felvette a kapcsolatot a megszólított kutatókkal.

A reakció abból a szempontból érdekes, hogy formálisan nem cáfolják a data leakage jelenségének tényét, azonban tagadják annak meghatározó jelentőségét a tesztek eredményeire. A lényeg az ő olvasatukban az lenne, hogy a kritika nélkülözi a tudományos kontextust, vagyis a gépi tanulás mint új megközeltés alkalmazását az utórengések mintázatainak megértésében; ezen felül a rendszernek a már ismert, utórengéssel kapcsolatos adatok alapján kellett fizikailag is helytálló összefüggéseket találnia a különböző főrengésekkel.

Rajiv Shah a The Register interjújában megismételte a Nature magazinnak is felvázolt álláspontját: eszerint itt mégis alapvető módszertani hibáról van szó, amit mindenképpen érdemes lenne jelezni, hiszen az adattudomány egy feltörekvő tudományág, ami egyelőre nem érett meg annyira, hogy rendelkezhetne a más területekre jellemző szigorú szabályokkal. Másfelől, ha elmarad a közzétett eredmények korrekciója, az a többi kutatást is gátolja ebben a témában, mivel nem lesz lehetséges javítani rajtuk, de még csak megközelíteni sem tudják majd azokat.

A szakember szerint ez az eset kitűnően példázza, hogy a nagy technológiai cégek mennyire egyenlőtlen feltételek között játszanak, és az akadémiai kutatásokra is mennyire meghatározó befolyással bírnak. Shah úgy látja, hogy a mélytanuló algoritmusokkal kapcsolatos, túlzott felhajtást érdemes lenne eloszlatni a további fejlődés érdekében. A The Register egyébként az érintett egyetemi kutatókat is megkereste az ügyben, akik azonban nem kívántak nyilatkozni a lapnak.

Cloud & big data

SAP NOW Hungary: cápákkal indul a második nap

Beszámolónk a 2019-es SAP NOW Hungary konferencia folytatásáról, még több az intelligens vállalatokról.
 
EZ A HELYZET SIÓFOKON

SAP NOW Hungary:
szerszámkészlet az ügyfelek lenyűgözéséhez

Az SAP kétnapos rendezvénye az idén is követhető a Bitporton!

TOVÁBB A KÖZVETÍTÉSRE >

Ömlik a pénz a digitalizációval foglalkozó startupokba, de a rossz beidegződések még mindig lassítják az átalakulást.

a melléklet támogatója az Aruba Cloud

Hirdetés

Nagyvállalati mesterséges intelligencia (MI) megoldások a Lenovótól

Elkezdődött a mesterséges intelligencia hajtotta gazdasági átalakulás. Az összetett technológia könnyű használatba vételét, rugalmas bővítését ígérik a Lenovo adatközponti megoldásai.

A VISZ éves INFOHajó rendezvényén az agilitás nagyvállalati alkalmazhatósága és tanulhatósága volt az egyik kerekasztal témája. Az ott elhangzottakat gondolta tovább Both András (Idomsoft), a kerekasztal egyik résztvevője.

Ez a nyolc technológia alakítja át a gyártást

a Bitport
a Vezető Informatikusok Szövetségének
médiapartnere

Az Oracle átáll a féléves verzió-életciklusra, és megszünteti az ingyenes támogatást üzleti felhasználóknak. Mire kell felkészülni? Dr. Hegedüs Tamás licencelési tanácsadó (IPR-Insights Hungary) írása.
Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthetően, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport kilencedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2019 Bitport.hu Média Kft. Minden jog fenntartva.