Egy statisztikus adott egy pofont a gépi tanulásnak

Bitport2019.02.21.Cloud & big data

A gépi tanulási algoritmusokra épülő kutatások eredményeinek háromnegyedét ki kellene dobni.

Nem is időzíthette volna jobban a houstoni Rice Egyetem statisztikus kutatója, Genevera Allen a gépi tanulási algoritmusokkal kapcsolatos kritikáját. Ugyanis a közelmúltban írta alá Donald Trump amerikai elnök azt a rendeletet, amely akár anyagi források átcsoportosításával gyorsítaná az amerikai mesterségesintelligencia-kutatásokat.

A gépi tanulás a tudomány válságához vezet

Genevera Allen nem kevesebbet állít, mint hogy a gépi tanulási algoritmusokra alapozott kutatások többsége téves eredményre jut. Mint a BBC írja, a tudományos kutatásokban az orvosbiológiától a csillagászatig egyre több területen és egyre többször használják az összegyűjtött adatok elemzésére a gépi tanulási szoftvereket. A statisztikus azt állítja, hogy az így kapott eredmények nagy valószínűséggel pontatlanok, rosszabb esetben tévesek, mert a machine learning (ML) szoftverek olyan mintákat azonosítanak, amelyek kizárólag az adott adatkészleten érvényesek, a valós világban már nem.

Egy következtetés téves voltára addig nem is derül fény, amíg valaki egy másik, hasonlóan nagy adatkészleten nem jut más eredményre, azaz bebizonyosodik, hogy a kutatás nem állja ki az egyik legfontosabb tudományos próbát, a reprodukálhatóságot. Egy ilyen kontrollvizsgálatnak azonban kicsi a valószínűsége, mert az ilyen elemzésekhez szükséges nagy adatkészletek előállítása drága.

A problémát tetézi az ML-lel kapcsolatos várakozás is: alkalmazásától azt remélik, hogy nem triviális mintákat, jelenségeket találjanak az adatkészletekben. És amikor elég nagy mennyiségű adatban kutatnak, elkerülhetetlenül találnak is ilyen mintákat. Ezek az eredmények azonban a legritkább esetben reprodukálhatóak.

Allen mindazonáltal nem az ML kutatásból történő kizárása mellett kardoskodik. Szerinte sokkal inkább új a gépi tanulási modellek és statisztikai technikák kellenek, amelyek arról is adnak információt, hogy a kapott eredmények mennyiben tekinthetők megbízhatónak. Ahogy a EurekAllert! című tudományos folyóiratnak nyilatkozta: olyan algoritmusokra van szükség, melyek megkérdőjelezik saját előrejelzéseiket.

Nyitott kapukat dönget

A kutató kételye érthető, hiszen ő pont olyan területen, orvosi kutatásokban dolgozik, ahol egy ilyen hiba akár súlyos következményekkel is járhat. Példaként olyan rákkutatási projekteket említett, melyekről utólag derült ki, hogy eredményeit a gyakorlat nem igazolta vissza.

Ráadásul Allen nyitott kapukat dönget. A probléma ugyanis a bigdata-elemzések óta ismert a statisztikusok előtt. Ezek ugyanis sok esetben úgy tekintenek az elemzendő adattömegre, hogy azt teljesnek értelmezik, így nem is súlyoznak bennük. Ezzel szemben a reprezentatív minta úgy áll össze, hogy egy adott szempontból kis számú elem is képes legyen a nagy egész összetételét leírni.

Az IBM például már felismerte az adatminták fontosságát. Egyes területeken statisztikai módszerekkel próbálnak olyan mesterségesintelligencia-tanító adatmintákat összeállítani, melyek kellően nagy számosságúak, ugyanakkor reprezentatívak is. Ezzel a módszerrel próbálják például az arcfelismerő algoritmusok előítéletességét csökkenteni.

Ha minden igaz, erre is lesz pénz

Más szempontból is jókor szólalt meg Genevera Allen. Végre Donald Trump is felismerte, hogy ha az USA meg akarja őrizni vezető szerepét a világban, akkor komolyan kell áldoznia a mesterséges intelligencia kutatására. A közelmúltban aláírt MI iniciatíva (Maintaining American Leadership in Artificial Intelligence) arra utasítja a források fölött rendelkező állami szervezeteket, hogy biztosítsanak elsőbbséget a mesterségesintelligencia-kezdeményezéseknek, és támogassák a területen a befektetéseket.

A rendelet értelmében az MI-kutatók számára elérhetővé teszik a szövetségi adatokat, számítási modelleket és erőforrásokat. A NIST (National Institute of Standards and Technology) feladata lesz az MI-fejlesztéseket ösztönző szabványok kidolgozása. Emellett szövetségi szinten támogatja a dolgozók felkészítését az MI alkalmazására tréningek szervezésével. A rendelet kitér arra is, hogy olyan nemzetközi együttműködéseket kell kialakítani, melyek megfelelnek az amerikai értékeknek és érdekeknek.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Kódolni a börtönben is érdemes

Egy több éve futó amerikai kezdeményezés megmutatta, hogy az elítéltekre nagyon jó hatással van az informatikai képzés. A programozói alaptudás önbecsülést ad, ami csökkenti a visszaesés esélyét.

Hirdetés

Adathelyreállítás pillanatok alatt

A vírus- és végpontvédelmet hatékonyan kiegészítő Zerto, a Hewlett Packard Enterprise Company platformfüggetlen, könnyen használható adatmentési és katasztrófaelhárítási megoldása.

A hónap témája

Mennyibe kerül az adat mentése és helyreállítása?

A válasz egyszerű: arról függ, hogy hol, hogyan és milyen szabályozásoknak és üzleti elvárásoknak megfelelően tároljuk az információt. A lényeg azonban a részletekben rejlik.

a melléklet támogatója az EURO ONE Számítástechnikai Zrt.

CIO KUTATÁS

TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?

Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »

Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

LÁSSUNK NEKI!

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Podcast

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

CIO Podcast #58: Valóban mindenre (is) jó az MI?

MÉG TÖBB CIO PODCAST »

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Kódolni a börtönben is érdemes

Mennyibe kerül az adat mentése és helyreállítása?

Régen minden jobb volt? A VMware licencelési változásai

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2024 konferencia