Így kezeli az Alexa az alkalmi beszélgetéseket

Bitport2018.08.29.Cloud & big data

A kiegészítő kérdések feldolgozása olyan feladat, ami hazavágja a digitális asszisztensek jelentős részét. Az Amazon elmagyarázta, hogy az Alexa hogyan birkózik meg a feladattal.

Az Amazon fejlesztői blogján az Alexa AI csoportjának két tudósa osztott meg egy érdekes (nyilván csak az ismeretterjesztés mélységeibe hatoló) cikket arról a megoldásról, amelynek segítségével az Alexa asszisztens mesterséges intelligenciával támogatott rendszere a korábbinál jóval hatékonyabban működik a hétköznapi beszélgetések során. A természetes nyelvek feldolgozásában a szóbeli interakció ugyanis olyan kihívásokat támaszt, amelyek az írott szövegek esetében nem, vagy nem ennyire hangsúlyosan merülnek fel.

Az egyik ilyen probléma a cikkben "kontextus-átvitelnek" nevezett jelenség, amit a kiegészítő kérdésekkel szemléltetnek. A bejegyzésben szereplő példa szerint ha valaki megkérdezi, hogy milyen messze van tőle Redmond, majd ezután arra utasítja a digitális asszisztenst, hogy találjon neki arrafelé egy jó éttermet, akkor a rendszernek pontosan értenie kell, hogy az "arrafelé" Redmondra vonatkozott.

Példa a kiegészítő kérdésekkel előálló értelmezési helyzetekre

Ebben nehézséget jelent, hogy az algoritmusnak minden esetben ki kell választania, milyen alkalmazásra (ha úgy tetszik, képességre) van éppen szüksége, és milyen céllal van rá szüksége – ezen felül azokat a változókat is azonosítania kell, amelyekre mindezt alkalmazni fogja. A kiegészítő kérdések éppen ezt a folyamatot bonyolítják tovább, hiszen a különböző visszautalásokkal azokat a "slotokat" is át kell rendezi, amelyehez az Alexa eredetileg hozzárendelte a tartományokat és a célokat.

Nem kell mindig mindent elmagyarázni

A posztban említett megoldás, amelyet a "Contextual Slot Carryover for Disparate Schemas" című dolgozat alapján a szeptemberi Interspeech konferencián mutatnak majd be, egy neurális hálózat működési elvére épít, és megtanulja feltérképezni az egyik vagy másik képességgel használt slotok viszonyát.

Ehhez egyfelől a beszélgetés bejövő adatai alapján meghatároz egy jellemző összegvektort, amelynek alapján valószínűségeket rendel az egyes slotokhoz – másképpen fogalmazva, eldönti, hogy vélhetően mire gondolt a beszélgetőpartner. A rendszer két komponense egymással párhuzamosan tanítható, vagyis a szóban forgó összegvektor is egyre inkább alkalmassá válik rá, hogy a segítségével jól lehessen súlyzni az egyes valószínűségeket.

Mindennek alapján jönnek létre beágyazások (embedding), vagyis az egyes szóláncok térbeli pontként való meghatározásai, annak alapján, hogy egyes szavak milyen gyakran kapcsolódnak más szavakhoz. A "hosszú rövidtávú memóriának" fordítható Long Short-Term Memory (LSTM) enkóderek pedig, a megfelelő szavakra figyelve, segítenek a slotok legvalószínűbb viszonyainak feltérképezésében.

A modell figyelmbe veszi a beszélgetések előzményeit is, olyan részletekre kiterjedően, mint amilyenek az Alexa saját megnyilvánulásai (vagyis annak megállapítása, hogy a beszélgető azokra vagy a saját korábbi közléseire utal), vagy amilyenek mondjuk a korábbi megnyilatkozásokban a slotok hozzárendeléseihez leghasznosabbnak ítélt szavak.

A kutatók szerint a felidézés és a pontosság (vagyis a hamis pozitívokat kiszűrő szempontok) tekintetében az új rendszer már most is 9 százalékkal hatékonyabb az aktuális, szerep alapú rendszernél. Az Amazon egyébként már áprilisban bejelentette a kontextus-átvitel megjelenését az Alexán, ami a mostani poszt szerint "folyamatban van".

Érdemes persze megjegyezni, hogy ilyen jellegű fejlesztések nem csak az Amazonnál folynak: a Google a májusi I/O konferencián mutatott be egy hasonló funkcióta Google Assistant kapcsán. A Continued Conversation nevű készség elvileg már június óta dolgozik a Home okos hangszórókban, a célja pedig az, hogy a rendszer érzékelje, amikor a felhasználó felveszi egy-egy beszélgetés fonalát, és ne legyen szükség a rendszert aktiváló "OK Google" és más megszólítások ismételgetésére.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Még a Microsoft kutatói szerint sem szabad vakon bízni az MI-ágensekben

Legalábbis ami az irodai feladatok delegálását és a rájuk bízott dokumentumokat illeti, mert a hosszabb munkafolyamatok során képesek teljesen tönkretenni azokat.

Hirdetés

Költségcsökkenésből finanszírozott modernizáció

A cloud-native alkalmazások megkövetelik az adatközpontok modernizációját, amihez a SUSE többek között a virtualizációs költségek csökkentésével szabadítana fel jelentős forrásokat.

A hónap témája

Az MI dönt, a robot végrehajt: automatizáció valós példákon

Felhőalapú automatizációs modellek konkrét vállalati felhasználásban - hat folyamat, ahol már bizonyított az AIaaS és az RPAaaS.

a melléklet támogatója a ONE Solutions

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Még a Microsoft kutatói szerint sem szabad vakon bízni az MI-ágensekben

Az MI dönt, a robot végrehajt: automatizáció valós példákon

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!