Általánosan elérhetővé vált a fejlesztőknek szövegfelolvasó, azaz a Text-to-Speech API, emellett a felhős Speech-to-Text szolgáltatás is frissült – jelentette be blogján a Google.
Már tizennégy nyelven használható
A Text-to-Speech jelenleg 14 nyelvet támogat. Valójában azonban csak 12-t, mert a nyelvek között van három angol (brit, amerikai, ausztrál), melyek inkább nyelvjárásnak tekinthetők. A kanadai francia is külön szerepel, de a Franciaországban és Kanadában beszélt nyelv között sokkal nagyobb a táévolság, mint az angol variánsok között, mivel a kanadai franciát erős angolszász behatás érte a mintegy három évszázados együttélés alatt. A magyar egyelőre nincs a támogatott nyelvek között. Ennél érdekesebb azonban, hogy a távol-keleti nyelvek között egyelőre csak a koreai és a japán szerepel, és továbbra is hiányzik az arab (a támogatott nyelvek teljes listája itt tekinthető meg.)
Szintén fontos újdonság, hogy 30 hagyományos hang és 26 WaveNet hang közül lehet választani. A WaveNet technológia nyers audio hullámformát generál, és a mélytanulás segítségével állít elő közel természetes beszédhangzást.
Szintén újdonság a hangprofilok létrehozásának lehetősége, amely a természetes, a helyzethez illeszkedő beszéd előállítását segíti. (Másként szólhat ugyanaz a szöveg, ha telefon hangszórójából, fülhallgatóból vagy autós hangrendszerből hallgatjuk, a hangprofil ezekhez az eszközökhöz illeszti a megszólaló szöveg frekvenciatartományát, és például az egyes részek – basszus, középtartomány, magasak stb. – erősségét.)
Új funkciók a beszédfelismerésben is
Egyelőre bétában érhetők el a Cloud Speech-to-Text szolgáltatásai. A legfontosabb, hogy a szolgáltatás gépi tanulási algoritmusa már nagyon pontosan meg tudja különböztetni egy beszélgetés résztvevőinek hangját, így sokkal pontosabb leiratot tud készíteni. Ehhez csupán azt kell megadni, hogy hány beszélő van. Mivel a sztereó csatornákat is tudja kezelni, jól alkalmazható például ügyfélszolgálati beszélgetések leiratának elkészítéséhez, ahol az ügyfél és az ügyfélszolgálati munkatárs hangját kell pontosan megkülönböztetni.
Ráadásul akár többnyelvű beszélgetést is át lehet írni, mivel a szolgáltatás négy különböző nyelvet képes egyszerre elkülöníteni és azonosítani. A Speech-to-Text értékeli is a munkáját, azaz megmondja, mit milyen valószínűséggel értett meg. Ez a virtuális asszisztensek fejlesztésénél lehet fontos, mert a bizonytalanság esetén a virtuális asszisztens automatikusan rá tud kérdezni a nem pontosan értett szavakra.
Mindkét szolgáltatás használatarányos díjért vehető igénybe, a Text-to-Speech-ért millió karakterenként és a használt hangtípusok függvényében, a Speech-to-Text-ért másodperc alapon kell fizetni.
Exkluzív szakmai nap a felhők fölött: KYOCERA Roadshow a MOL Toronyban
A jövő irodája már nem a jövő – hanem a jelen. A digitális transzformáció új korszakába lépünk, és ebben a KYOCERA nemcsak követi, hanem formálja is az irányt. Most itt a lehetőség, hogy első kézből ismerje meg a legújabb hardveres és szoftveres fejlesztéseket, amelyekkel a KYOCERA új szintre emeli a dokumentumkezelést és az üzleti hatékonyságot.
Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?
A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió. A valódi előrelépéshez olyan infrastruktúrára, szolgáltatásokra és partneri támogatásra van szükség, amelyek nemcsak technológiai válaszokat adnak, hanem üzletileg is működőképes megoldásokat kínálnak.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak