Mostantól bárki fejleszthet alkalmazást a Google szövegfelolvasó API-jával

Bitport2018.08.30.Cloud & big data

Emellett a beszédfelismerő is megújult. Az alapvetően poliglott szövegolvasó repertoárjából egyelőre a magyar hiányzik. Sok segítséget kapnak a call centerek.

Hirdetés

Általánosan elérhetővé vált a fejlesztőknek szövegfelolvasó, azaz a Text-to-Speech API, emellett a felhős Speech-to-Text szolgáltatás is frissült – jelentette be blogján a Google.

Már tizennégy nyelven használható

A Text-to-Speech jelenleg 14 nyelvet támogat. Valójában azonban csak 12-t, mert a nyelvek között van három angol (brit, amerikai, ausztrál), melyek inkább nyelvjárásnak tekinthetők. A kanadai francia is külön szerepel, de a Franciaországban és Kanadában beszélt nyelv között sokkal nagyobb a táévolság, mint az angol variánsok között, mivel a kanadai franciát erős angolszász behatás érte a mintegy három évszázados együttélés alatt. A magyar egyelőre nincs a támogatott nyelvek között. Ennél érdekesebb azonban, hogy a távol-keleti nyelvek között egyelőre csak a koreai és a japán szerepel, és továbbra is hiányzik az arab (a támogatott nyelvek teljes listája itt tekinthető meg.)

Szintén fontos újdonság, hogy 30 hagyományos hang és 26 WaveNet hang közül lehet választani. A WaveNet technológia nyers audio hullámformát generál, és a mélytanulás segítségével állít elő közel természetes beszédhangzást.

Szintén újdonság a hangprofilok létrehozásának lehetősége, amely a természetes, a helyzethez illeszkedő beszéd előállítását segíti. (Másként szólhat ugyanaz a szöveg, ha telefon hangszórójából, fülhallgatóból vagy autós hangrendszerből hallgatjuk, a hangprofil ezekhez az eszközökhöz illeszti a megszólaló szöveg frekvenciatartományát, és például az egyes részek – basszus, középtartomány, magasak stb. – erősségét.)

Új funkciók a beszédfelismerésben is

Egyelőre bétában érhetők el a Cloud Speech-to-Text szolgáltatásai. A legfontosabb, hogy a szolgáltatás gépi tanulási algoritmusa már nagyon pontosan meg tudja különböztetni egy beszélgetés résztvevőinek hangját, így sokkal pontosabb leiratot tud készíteni. Ehhez csupán azt kell megadni, hogy hány beszélő van. Mivel a sztereó csatornákat is tudja kezelni, jól alkalmazható például ügyfélszolgálati beszélgetések leiratának elkészítéséhez, ahol az ügyfél és az ügyfélszolgálati munkatárs hangját kell pontosan megkülönböztetni.

Ráadásul akár többnyelvű beszélgetést is át lehet írni, mivel a szolgáltatás négy különböző nyelvet képes egyszerre elkülöníteni és azonosítani. A Speech-to-Text értékeli is a munkáját, azaz megmondja, mit milyen valószínűséggel értett meg. Ez a virtuális asszisztensek fejlesztésénél lehet fontos, mert a bizonytalanság esetén a virtuális asszisztens automatikusan rá tud kérdezni a nem pontosan értett szavakra.

Mindkét szolgáltatás használatarányos díjért vehető igénybe, a Text-to-Speech-ért millió karakterenként és a használt hangtípusok függvényében, a Speech-to-Text-ért másodperc alapon kell fizetni.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Ingyenes appal biztosít biztonságos forrásjelölést az Adobe

A gyártó bejelentette az Adobe Content Authenticity alkalmazás publikus bétáját, amelynek segítségével örök áron ellenőrizhetővé és kezelhetővé tennék a képek forrását igazoló metaadatokat.

Hirdetés

Exkluzív szakmai nap a felhők fölött: KYOCERA Roadshow a MOL Toronyban

A jövő irodája már nem a jövő – hanem a jelen. A digitális transzformáció új korszakába lépünk, és ebben a KYOCERA nemcsak követi, hanem formálja is az irányt. Most itt a lehetőség, hogy első kézből ismerje meg a legújabb hardveres és szoftveres fejlesztéseket, amelyekkel a KYOCERA új szintre emeli a dokumentumkezelést és az üzleti hatékonyságot.

A hónap témája

Hogyan alakítja át az MI az ügyfélszolgálatot?

Azok a vállalatok, amelyek gyorsabban, intelligensebben és empatikusabban tudnak reagálni ügyfeleik kérdéseire, összességében értékesebb, hosszabb távú kapcsolatokat építhetnek ki.

a melléklet támogatója a One Solutions

Hirdetés

Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?

A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió. A valódi előrelépéshez olyan infrastruktúrára, szolgáltatásokra és partneri támogatásra van szükség, amelyek nemcsak technológiai válaszokat adnak, hanem üzletileg is működőképes megoldásokat kínálnak.

CIO KUTATÁS

AZ IRÁNYÍTÁS VISSZASZERZÉSE

Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?

Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!

Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.

LÁSSUNK NEKI!

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ingyenes appal biztosít biztonságos forrásjelölést az Adobe

Hogyan alakítja át az MI az ügyfélszolgálatot?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia