Emellett a beszédfelismerő is megújult. Az alapvetően poliglott szövegolvasó repertoárjából egyelőre a magyar hiányzik. Sok segítséget kapnak a call centerek.

Általánosan elérhetővé vált a fejlesztőknek szövegfelolvasó, azaz a Text-to-Speech API, emellett a felhős Speech-to-Text szolgáltatás is frissült – jelentette be blogján a Google.

Már tizennégy nyelven használható

A Text-to-Speech jelenleg 14 nyelvet támogat. Valójában azonban csak 12-t, mert a nyelvek között van három angol (brit, amerikai, ausztrál), melyek inkább nyelvjárásnak tekinthetők. A kanadai francia is külön szerepel, de a Franciaországban és Kanadában beszélt nyelv között sokkal nagyobb a táévolság, mint az angol variánsok között, mivel a kanadai franciát erős angolszász behatás érte a mintegy három évszázados együttélés alatt. A magyar egyelőre nincs a támogatott nyelvek között. Ennél érdekesebb azonban, hogy a távol-keleti nyelvek között egyelőre csak a koreai és a japán szerepel, és továbbra is hiányzik az arab (a támogatott nyelvek teljes listája itt tekinthető meg.)

Szintén fontos újdonság, hogy 30 hagyományos hang és 26 WaveNet hang közül lehet választani. A WaveNet  technológia nyers audio hullámformát generál, és a mélytanulás segítségével állít elő közel természetes beszédhangzást.

Szintén újdonság a hangprofilok létrehozásának lehetősége, amely a természetes, a helyzethez illeszkedő beszéd előállítását segíti. (Másként szólhat ugyanaz a szöveg, ha telefon hangszórójából, fülhallgatóból vagy autós hangrendszerből hallgatjuk, a hangprofil ezekhez az eszközökhöz illeszti a megszólaló szöveg frekvenciatartományát, és például az egyes részek – basszus, középtartomány, magasak stb. – erősségét.)

Új funkciók a beszédfelismerésben is

Egyelőre bétában érhetők el a Cloud Speech-to-Text szolgáltatásai. A legfontosabb, hogy a szolgáltatás gépi tanulási algoritmusa már nagyon pontosan meg tudja különböztetni egy beszélgetés résztvevőinek hangját, így sokkal pontosabb leiratot tud készíteni. Ehhez csupán azt kell megadni, hogy hány beszélő van. Mivel a sztereó csatornákat is tudja kezelni, jól alkalmazható például ügyfélszolgálati beszélgetések leiratának elkészítéséhez, ahol az ügyfél és az ügyfélszolgálati munkatárs hangját kell pontosan megkülönböztetni.

Ráadásul akár többnyelvű beszélgetést is át lehet írni, mivel a szolgáltatás négy különböző nyelvet képes egyszerre elkülöníteni és azonosítani. A Speech-to-Text értékeli is a munkáját, azaz megmondja, mit milyen valószínűséggel értett meg. Ez a virtuális asszisztensek fejlesztésénél lehet fontos, mert a bizonytalanság esetén a virtuális asszisztens automatikusan rá tud kérdezni a nem pontosan értett szavakra.

Mindkét szolgáltatás használatarányos díjért vehető igénybe, a Text-to-Speech-ért millió karakterenként és a használt hangtípusok függvényében, a Speech-to-Text-ért másodperc alapon kell fizetni.

Cloud & big data

Még a Microsoft kutatói szerint sem szabad vakon bízni az MI-ágensekben

Legalábbis ami az irodai feladatok delegálását és a rájuk bízott dokumentumokat illeti, mert a hosszabb munkafolyamatok során képesek teljesen tönkretenni azokat.
 
Hirdetés

Költségcsökkenésből finanszírozott modernizáció

A cloud-native alkalmazások megkövetelik az adatközpontok modernizációját, amihez a SUSE többek között a virtualizációs költségek csökkentésével szabadítana fel jelentős forrásokat.

Felhőalapú automatizációs modellek konkrét vállalati felhasználásban - hat folyamat, ahol már bizonyított az AIaaS és az RPAaaS.

a melléklet támogatója a ONE Solutions

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.