A kiegészítő kérdések feldolgozása olyan feladat, ami hazavágja a digitális asszisztensek jelentős részét. Az Amazon elmagyarázta, hogy az Alexa hogyan birkózik meg a feladattal.

Az Amazon fejlesztői blogján az Alexa AI csoportjának két tudósa osztott meg egy érdekes (nyilván csak az ismeretterjesztés mélységeibe hatoló) cikket arról a megoldásról, amelynek segítségével az Alexa asszisztens mesterséges intelligenciával támogatott rendszere a korábbinál jóval hatékonyabban működik a hétköznapi beszélgetések során. A természetes nyelvek feldolgozásában a szóbeli interakció ugyanis olyan kihívásokat támaszt, amelyek az írott szövegek esetében nem, vagy nem ennyire hangsúlyosan merülnek fel.

Az egyik ilyen probléma a cikkben "kontextus-átvitelnek" nevezett jelenség, amit a kiegészítő kérdésekkel szemléltetnek. A bejegyzésben szereplő példa szerint ha valaki megkérdezi, hogy milyen messze van tőle Redmond, majd ezután arra utasítja a digitális asszisztenst, hogy találjon neki arrafelé egy jó éttermet, akkor a rendszernek pontosan értenie kell, hogy az "arrafelé" Redmondra vonatkozott.


Példa a kiegészítő kérdésekkel előálló értelmezési helyzetekre


Ebben nehézséget jelent, hogy az algoritmusnak minden esetben ki kell választania, milyen alkalmazásra (ha úgy tetszik, képességre) van éppen szüksége, és milyen céllal van rá szüksége – ezen felül azokat a változókat is azonosítania kell, amelyekre mindezt alkalmazni fogja. A kiegészítő kérdések éppen ezt a folyamatot bonyolítják tovább, hiszen a különböző visszautalásokkal azokat a "slotokat" is át kell rendezi, amelyehez az Alexa eredetileg hozzárendelte a tartományokat és a célokat.

Nem kell mindig mindent elmagyarázni

A posztban említett megoldás, amelyet a "Contextual Slot Carryover for Disparate Schemas" című dolgozat alapján a szeptemberi Interspeech konferencián mutatnak majd be, egy neurális hálózat működési elvére épít, és megtanulja feltérképezni az egyik vagy másik képességgel használt slotok viszonyát.

Ehhez egyfelől a beszélgetés bejövő adatai alapján meghatároz egy jellemző összegvektort, amelynek alapján valószínűségeket rendel az egyes slotokhoz – másképpen fogalmazva, eldönti, hogy vélhetően mire gondolt a beszélgetőpartner. A rendszer két komponense egymással párhuzamosan tanítható, vagyis a szóban forgó összegvektor is egyre inkább alkalmassá válik rá, hogy a segítségével jól lehessen súlyzni az egyes valószínűségeket.

Mindennek alapján jönnek létre beágyazások (embedding), vagyis az egyes szóláncok térbeli pontként való meghatározásai, annak alapján, hogy egyes szavak milyen gyakran kapcsolódnak más szavakhoz. A "hosszú rövidtávú memóriának" fordítható Long Short-Term Memory (LSTM) enkóderek pedig, a megfelelő szavakra figyelve, segítenek a slotok legvalószínűbb viszonyainak feltérképezésében.

A modell figyelmbe veszi a beszélgetések előzményeit is, olyan részletekre kiterjedően, mint amilyenek az Alexa saját megnyilvánulásai (vagyis annak megállapítása, hogy a beszélgető azokra vagy a saját korábbi közléseire utal), vagy amilyenek mondjuk a korábbi megnyilatkozásokban a slotok hozzárendeléseihez leghasznosabbnak ítélt szavak.

A kutatók szerint a felidézés és a pontosság (vagyis a hamis pozitívokat kiszűrő szempontok) tekintetében az új rendszer már most is 9 százalékkal hatékonyabb az aktuális, szerep alapú rendszernél. Az Amazon egyébként már áprilisban bejelentette a kontextus-átvitel megjelenését az Alexán, ami a mostani poszt szerint "folyamatban van".

Érdemes persze megjegyezni, hogy ilyen jellegű fejlesztések nem csak az Amazonnál folynak: a Google a májusi I/O konferencián mutatott be egy hasonló funkcióta Google Assistant kapcsán. A Continued Conversation nevű készség elvileg már június óta dolgozik a Home okos hangszórókban, a célja pedig az, hogy a rendszer érzékelje, amikor a felhasználó felveszi egy-egy beszélgetés fonalát, és ne legyen szükség a rendszert aktiváló "OK Google" és más megszólítások ismételgetésére.

Cloud & big data

Van az a pénz... Kivették a kínai App Store-ból a WhatsAppot és Threadset

Peking szerint a Meta két mobil appja nemzetbiztonsági aggályokat vet fel.
 
Hirdetés

Adathelyreállítás pillanatok alatt

A vírus- és végpontvédelmet hatékonyan kiegészítő Zerto, a Hewlett Packard Enterprise Company platformfüggetlen, könnyen használható adatmentési és katasztrófaelhárítási megoldása.

Hol, milyen adatokat és hányszorosan tároljunk ahhoz, hogy biztonságban tudhassuk szervezetünk működését egy nem várt adatvesztési incidens esetén is?

a melléklet támogatója az EURO ONE Számítástechnikai Zrt.

CIO KUTATÁS

TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?

Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »

Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.