Az MI már szövegértésben is jobb az embereknél

Tököli Gábor2018.01.18.Cloud & big data

Még ha nem is sokkal. Az Alibaba és a Microsoft MI-modelljével újabb mérföldkőhöz érkezett a mesterséges intelligencia fejlődése.

Januárban az Alibaba és a Microsoft is a Stanford egyetem által készített tesztnek vetette alá saját fejlesztésű MI-modelljét, amelynek célja a rendszerek természetes nyelvek feldolgozására vonatkozó képességeinek mérése volt. A Stanford Question Answering Dataset (SQuAD) egy speciálisan erre a célra összeállított adatkészlet, amelynek alapján a gépeknek összesen 500 Wikipedia-cikkre vonatkozóan több mint 100 ezer kérdésre kell minél alaposabb választ adniuk.

A teszt meghatározza az Exact Match (a pontos válaszok) értékelésére szolgáló viszonyszám értékét az átlagos emberi felhasználók esetében, vagyis az MI-knek ezt kell megközelíteniük vagy akár meghaladniuk, hogy a humán képességekkel összevethető szövegértési kompetenciáról beszéljünk. Ez egészen idáig nem jött össze nekik, azonban az Alibaba és a Microsoft rendszere most első ízben megugrotta az emberi adottságokra reflektáló 82,304 pontot.

Ez a belépő a gyakorlati felhasználásba

Az Alibaba mesterséges intelligenciája egészen pontosan 82,44, míg a Microsoft rendszere 82,65 EM-pontot ért el. Ezzel mindkettő sikeresen vette az akadályt, bár az Alibaba most azzal haknizik, hogy a világon elsőként az ő MI-je volt képes meghaladni az emberi teljesítményt – ez annyiban igaz is, hogy az Alibaba végső pontszámát egy nappal korábban véglegesítették a Microsofthoz képest, de a gyakorlatban ez egy megosztott első helyet jelent.

A teszt jelentősége abban áll, hogy az MI-k ezzel már nagy pontossággal képesek értelmezni az egzakt módon, de számtalan lehetséges megfogalmazásban feltett kérdéseket. (Arról, hogy ez technikai szempontból mennyire bonyolult dolog, legutóbb a gyerekek által használt hang alapú vezérlés kapcsán írtunk.)

Az Alibaba természetes nyelvek feldolgozásával foglalkozó vezető kutatója szerint a mostani eredmény nyomán már elmondhatjuk, hogy az olyan kérdésekre, mint mondjuk a "mitől esik az eső", a gépek ma már nagyon nagy pontossággal képesek válaszolni. A technológia ezután lépésről lépésre alkalmazható lesz egy nagy csomó felhasználási területen, mint amilyen az ügyfélszolgálati tevékenység, a múzeumi vezetés vagy az orvosi tanácsadás – a lényeg nyilván az, hogy a folyamatokban minden esetben drámaian csökken az emberi támogatás szükségszerűsége.

Megállíthatatlanul fejlődnek, de van is hova

Teljes sci-fi-őrületre azért még ne számítsunk, hiszen a technológiák gyakorlati implementációja csak hosszabb távon valósul meg. Ráadásul más – ugyancsak kínai – kutatások arra figyelmeztetnek, hogy az MI-rendszerek félelmetes adatfeldolgozó képességük és tanulási sebességük ellenére sem okosabbak egy 6 éves gyereknél. Bár léteznek olyan modellek, amelyek nulláról indulva és saját magukat tanítva, néhány óra alatt képesek lesznek elverni a legjobb emberi sakk- vagy gójátékosokat, ezek is a meghatározott gondolkodási sémák szerint működnek.

A kínai fejlesztésű AI-MATHS vagy a japán Torobo robotok például azért hasaltak el tavaly a helyi gimnáziumi matematika felvételiken, mert esetenként nem tudták értelmezni a szöveges feladatokat, amelyeket amúgy lazán képesek lettek volna megoldani. Ez nem jelenti, hogy a későbbiekben sem sikerül majd a dolog, hiszen a rendszerek gyors ütemben tanulnak és fejlődnek. A természetes nyelvek feldolgozása viszont olyan terület, ahol a gépek és az emberek teljesítménye között a látványos eredmények ellenére is még nagyon nagy a különbség.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Elon Musk egyelőre kudarcot vallott az OpenAI ostromával

Az üzletember elvesztette az MI-fejlesztő vállalat ellen indított perét, miután az esküdtszék megállapította, hogy túl sokáig várt az OpenAI vezetőit és működését is célzó, sokmilliárd dolláros kereset benyújtásával. Musk ügyvédje szerint azonban messze még a vége, és a fellebbezést követően ők nyerik majd a háborút.

A hónap témája

Hogyan vezessük be az MI-t szolgáltatásként?

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.

a melléklet támogatója a ONE Solutions

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Elon Musk egyelőre kudarcot vallott az OpenAI ostromával

Hogyan vezessük be az MI-t szolgáltatásként?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!