2018年Next大會(huì)上推出的人工智能預(yù)包裝服務(wù)客服中心AI(Contact Center AI),現(xiàn)在Google透過增加人工智能理解對(duì)話情境的方法,進(jìn)一步強(qiáng)化虛擬代理人語音識(shí)別的能力,用戶現(xiàn)在還可以更靈活地自訂定義Speech Context類別,減少人工智能對(duì)于文字概念混淆的問題。
Google提到,即便客服中心虛擬代理人的語音識(shí)別精準(zhǔn)度達(dá)90%,但是比起實(shí)驗(yàn)室,實(shí)際使用環(huán)境以及雜訊的影響,在部分情況下,仍然會(huì)使得自動(dòng)語音識(shí)別的結(jié)果變得很糟,因此現(xiàn)在Google進(jìn)一步更新客服中心AI所使用的技術(shù),特別是在Dialogflow以及云端語音轉(zhuǎn)文字兩服務(wù),以提升辨識(shí)品質(zhì)。
Dialogflow讓用戶能夠在網(wǎng)頁、行動(dòng)應(yīng)用程式或是熱門的傳訊平臺(tái),建構(gòu)對(duì)話服務(wù),而這次更新,Google為Dialogflow加入了自動(dòng)語音調(diào)適能力(Auto Speech Adaptation),以對(duì)話情境資訊,解決虛擬代理人混淆單字發(fā)音的問題。
由于許多單字的讀音很相似,在電話中可能無法很清楚傳遞,像是cheese和these的發(fā)音,還有可能把mail誤翻成male或nail,但是當(dāng)虛擬代理人知道這些對(duì)話背景,發(fā)生在速食餐廳或是商品退貨時(shí),便不容易混淆這些字。用戶只要在Dialogflow控制臺(tái)中,將自動(dòng)語音調(diào)適功能打開,就能讓語音識(shí)別準(zhǔn)確度上升40%以上。
Google也改進(jìn)了互動(dòng)式語音應(yīng)答(IVR)以及電話虛擬代理人,所使用的云端語音轉(zhuǎn)文字基線模型,而這將會(huì)使語音轉(zhuǎn)錄的結(jié)果更好,Google以電話用語的常用短句最佳化了該模型,使得新模型的表現(xiàn),在美國英文上的辨識(shí)準(zhǔn)確度提高15%,再加上自動(dòng)語音調(diào)適功能,還能進(jìn)一步提升辨識(shí)的品質(zhì)。
開發(fā)人員在使用云端語音轉(zhuǎn)文字服務(wù)時(shí),能使用SpeechContext參數(shù)來控制情境資訊,讓語音轉(zhuǎn)錄更加精確,以讓虛擬代理人更精準(zhǔn)地辨識(shí)企業(yè)產(chǎn)品等特定名詞。
而現(xiàn)在Google在SpeechContext中新增類別,而預(yù)定義的類別則對(duì)應(yīng)到流行或是通用的概念上,使用情境像是在數(shù)字溝通時(shí),4個(gè)數(shù)字的組合可能代表年、時(shí)間或是金錢,而開發(fā)者可以在SpeechContext類別,調(diào)校整個(gè)自動(dòng)語音識(shí)別的單字列表,改善輸入語音的轉(zhuǎn)錄結(jié)果。
不過,Google也提到,使用SpeechContext這樣的工具,會(huì)增加部分短句被擷取的機(jī)率,這可能降低了語音有提及卻沒出現(xiàn)在轉(zhuǎn)錄文字上的錯(cuò)誤,但同時(shí)也會(huì)增加語音未提及卻出現(xiàn)在轉(zhuǎn)錄文字的情形,自動(dòng)語音調(diào)適的強(qiáng)度需要權(quán)衡結(jié)果進(jìn)行調(diào)整,而SpeechContext的Boost功能解決了開發(fā)者這樣的煩惱,可以自動(dòng)為使用案例調(diào)整語音調(diào)適的最佳強(qiáng)度。
過去云端語音轉(zhuǎn)語音服務(wù),處理語音只能以1分鐘為單位,而這對(duì)于需要較長時(shí)間轉(zhuǎn)錄文字的使用案例,像是會(huì)議、即時(shí)影片或是電話等是個(gè)大問題,現(xiàn)在Google將處理語音時(shí)間上限提高至5分鐘,而且API也允許開發(fā)人員開啟新的串流對(duì)話,來接續(xù)前一個(gè)串流對(duì)話,以做到無限時(shí)間的串流語音轉(zhuǎn)錄文字。