Általánosan elérhetővé vált a fejlesztőknek szövegfelolvasó, azaz a Text-to-Speech API, emellett a felhős Speech-to-Text szolgáltatás is frissült – jelentette be blogján a Google.
Már tizennégy nyelven használható
A Text-to-Speech jelenleg 14 nyelvet támogat. Valójában azonban csak 12-t, mert a nyelvek között van három angol (brit, amerikai, ausztrál), melyek inkább nyelvjárásnak tekinthetők. A kanadai francia is külön szerepel, de a Franciaországban és Kanadában beszélt nyelv között sokkal nagyobb a táévolság, mint az angol variánsok között, mivel a kanadai franciát erős angolszász behatás érte a mintegy három évszázados együttélés alatt. A magyar egyelőre nincs a támogatott nyelvek között. Ennél érdekesebb azonban, hogy a távol-keleti nyelvek között egyelőre csak a koreai és a japán szerepel, és továbbra is hiányzik az arab (a támogatott nyelvek teljes listája itt tekinthető meg.)
Szintén fontos újdonság, hogy 30 hagyományos hang és 26 WaveNet hang közül lehet választani. A WaveNet technológia nyers audio hullámformát generál, és a mélytanulás segítségével állít elő közel természetes beszédhangzást.
Szintén újdonság a hangprofilok létrehozásának lehetősége, amely a természetes, a helyzethez illeszkedő beszéd előállítását segíti. (Másként szólhat ugyanaz a szöveg, ha telefon hangszórójából, fülhallgatóból vagy autós hangrendszerből hallgatjuk, a hangprofil ezekhez az eszközökhöz illeszti a megszólaló szöveg frekvenciatartományát, és például az egyes részek – basszus, középtartomány, magasak stb. – erősségét.)
Új funkciók a beszédfelismerésben is
Egyelőre bétában érhetők el a Cloud Speech-to-Text szolgáltatásai. A legfontosabb, hogy a szolgáltatás gépi tanulási algoritmusa már nagyon pontosan meg tudja különböztetni egy beszélgetés résztvevőinek hangját, így sokkal pontosabb leiratot tud készíteni. Ehhez csupán azt kell megadni, hogy hány beszélő van. Mivel a sztereó csatornákat is tudja kezelni, jól alkalmazható például ügyfélszolgálati beszélgetések leiratának elkészítéséhez, ahol az ügyfél és az ügyfélszolgálati munkatárs hangját kell pontosan megkülönböztetni.
Ráadásul akár többnyelvű beszélgetést is át lehet írni, mivel a szolgáltatás négy különböző nyelvet képes egyszerre elkülöníteni és azonosítani. A Speech-to-Text értékeli is a munkáját, azaz megmondja, mit milyen valószínűséggel értett meg. Ez a virtuális asszisztensek fejlesztésénél lehet fontos, mert a bizonytalanság esetén a virtuális asszisztens automatikusan rá tud kérdezni a nem pontosan értett szavakra.
Mindkét szolgáltatás használatarányos díjért vehető igénybe, a Text-to-Speech-ért millió karakterenként és a használt hangtípusok függvényében, a Speech-to-Text-ért másodperc alapon kell fizetni.
Költségcsökkenésből finanszírozott modernizáció
A cloud-native alkalmazások megkövetelik az adatközpontok modernizációját, amihez a SUSE többek között a virtualizációs költségek csökkentésével szabadítana fel jelentős forrásokat.
CIO kutatás
Merre tart a vállalati IT és annak irányítója?
Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.
Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!
Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?