本篇文章給大家談?wù)劺铍娫挋C(jī)器人vad,以及李響和機(jī)器人對(duì)應(yīng)的知識(shí)點(diǎn),希望對(duì)各位有所幫助,不要忘了收藏本站喔。
本文目錄一覽:
1、智能語音機(jī)器人應(yīng)用實(shí)踐思考
智能語音機(jī)器人應(yīng)用實(shí)踐思考
智能語音機(jī)器人呼叫流程的交互時(shí)序流程(以呼入為例),如圖2所示,主要流程為:
1.客戶撥打電話給智能語音機(jī)器人。
2.智能語音機(jī)器人接聽電話后,呼叫中心平臺(tái)調(diào)用業(yè)務(wù)流程管理接口,啟動(dòng)并初始化對(duì)話流程狀態(tài)圖。
10.根據(jù)配置好的業(yè)務(wù)流程狀態(tài)圖,重復(fù)6-9步驟,直至呼叫對(duì)話流程結(jié)束。
11.業(yè)務(wù)對(duì)話流程結(jié)束后,呼叫中心通知ASR服務(wù)結(jié)束當(dāng)前的語音轉(zhuǎn)寫時(shí)間請(qǐng)求。最終通知業(yè)務(wù)流程對(duì)話管理模塊掛機(jī)操作,并向呼叫管理平臺(tái)上報(bào)呼叫結(jié)果。
1.語音識(shí)別ASR
語音識(shí)別能夠?qū)⒂脩舻恼Z音轉(zhuǎn)換成文字。針對(duì)語音識(shí)別應(yīng)用中面臨的方言口音、背景噪聲等問題,在實(shí)際業(yè)務(wù)系統(tǒng)中所收集的涵蓋不同方言和不同類型背景噪聲的海量語音數(shù)據(jù)的基礎(chǔ)上通過先進(jìn)的區(qū)分訓(xùn)練方法進(jìn)行語音建模,能夠使語音識(shí)別在復(fù)雜應(yīng)用場(chǎng)景下均有良好的效果表現(xiàn)。
模型優(yōu)化包括聲學(xué)模型優(yōu)化和語言模型優(yōu)化。由于聲學(xué)模型訓(xùn)練需要大量的數(shù)據(jù)(客戶的標(biāo)注數(shù)據(jù)不足以訓(xùn)練聲學(xué)模型),并且同時(shí)需要音頻及對(duì)應(yīng)的標(biāo)注文本,聲學(xué)訓(xùn)練又是一個(gè)高計(jì)算的任務(wù),需要多臺(tái)高性能服務(wù)器及GPU構(gòu)成的硬件系統(tǒng),所以給客戶做聲學(xué)優(yōu)化不可行。語言模型優(yōu)化相對(duì)聲學(xué)模型優(yōu)化,其生成模型方式及硬件要求,可在利用客戶標(biāo)注數(shù)據(jù)進(jìn)行,以下是語言模型優(yōu)化的流程:
語言模型優(yōu)化主要分為需求評(píng)估、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、測(cè)試評(píng)估、迭代優(yōu)化五個(gè)部分,其中標(biāo)綠框表示不一定能做(有時(shí)候拿不到客戶的樣本數(shù)據(jù)),標(biāo)藍(lán)框表示第一次優(yōu)化工作需要做的。
2.前端語音處理
前端語音處理,利用信號(hào)處理的方法對(duì)說話人的語音進(jìn)行檢測(cè)、降噪等預(yù)處理,以便得到最適合識(shí)別引擎處理的語音,其主要功能包括端點(diǎn)檢測(cè)VAD、流式語音智能斷句和噪音消除。
語音端點(diǎn)檢測(cè)是對(duì)輸入的音頻流進(jìn)行分析,確定客戶說話的起點(diǎn)和終止點(diǎn)的處理過程。一旦檢測(cè)到客戶開始說話,語音開始流向識(shí)別引擎,直到檢測(cè)到客戶說話結(jié)束。這種方式能夠使得識(shí)別引擎在客戶說話的同時(shí)開始進(jìn)行識(shí)別處理,做到最大限度的即時(shí)處理。
n 端點(diǎn)檢測(cè)過程:
n 端點(diǎn)檢測(cè)目的:
隨著語音識(shí)別應(yīng)用的發(fā)展,越來越多的系統(tǒng)將打斷功能作為一種方便有效的應(yīng)用模式。而打斷功能又直接依賴端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)對(duì)打斷功能的影響發(fā)生在判斷語音/非語音的過程出現(xiàn)錯(cuò)誤時(shí)。表現(xiàn)在過于敏感的端點(diǎn)檢測(cè)產(chǎn)生的語音信號(hào)的誤警將產(chǎn)生錯(cuò)誤的打斷。例如,提示音被很強(qiáng)的背景噪音或其它人的講話打斷,是因?yàn)槎它c(diǎn)檢測(cè)錯(cuò)誤的將這些信號(hào)作為有效語音信號(hào)造成的。反之,如果端點(diǎn)檢測(cè)漏過了事實(shí)上的語音部分,而沒有檢測(cè)到語音。系統(tǒng)會(huì)表現(xiàn)出沒有反應(yīng),在用戶講話時(shí)還在播放提示音。 端點(diǎn)檢測(cè)對(duì)識(shí)別系統(tǒng)的識(shí)別效果影響也很大。語音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)判斷有誤,有可能影響整個(gè)信號(hào)的完整性,在語句的開頭或結(jié)尾漏掉一些有用的數(shù)據(jù)。當(dāng)這種情況發(fā)生時(shí),很可能對(duì)識(shí)別的準(zhǔn)確度有特別大影響。不完全的信息會(huì)使識(shí)別率降低。
n 商用端點(diǎn)檢測(cè)應(yīng)具備的特性:
基于可靠的端點(diǎn)檢測(cè)技術(shù)和智能反饋,智能打斷功能不僅應(yīng)該在一般的環(huán)境下工作出色,而且能有效的拒絕環(huán)境噪聲,非語音的高強(qiáng)噪聲(呼吸,關(guān)門等) 環(huán)境中其它人的聲音。
流式語音智能斷句
現(xiàn)有的語音處理方案是先用語音活動(dòng)檢測(cè)模塊對(duì)語音進(jìn)行斷句,再將斷開的語音進(jìn)行自動(dòng)語音識(shí)別。但是,在電話語音交互場(chǎng)景中,VAD面臨著兩個(gè)難題:
漏檢反應(yīng)的是原本是語音但是沒有檢測(cè)出來,而虛檢率反應(yīng)的是不是語音信號(hào)而被檢測(cè)成語音信號(hào)的概率。相對(duì)而言漏檢是不可接受的,而虛檢可以通過后端的ASR和NLP算法進(jìn)一步過濾,但是虛檢會(huì)帶來系統(tǒng)資源利用率上升,以及造成響應(yīng)不及時(shí)。
流式語音智能斷句模塊是主要由語音識(shí)別模塊、信息流聚合模塊、動(dòng)態(tài)窗口設(shè)定模塊、斷句識(shí)別模塊構(gòu)成。其中,語音識(shí)別模塊用于接收并識(shí)別語音實(shí)時(shí)流,并按照指定的頻率輸出帶有時(shí)序的語音識(shí)別結(jié)果;信息流聚合模塊用于對(duì)帶有時(shí)序的語音識(shí)別結(jié)果進(jìn)行優(yōu)化處理,并整合經(jīng)過優(yōu)化處理后的帶有時(shí)序的語音識(shí)別結(jié)果,以形成語音識(shí)別結(jié)果序列;動(dòng)態(tài)窗口設(shè)定模塊用于從語音識(shí)別結(jié)果序列中選擇指定范圍的文本,進(jìn)而將指定范圍的文本用于斷句分析;斷句識(shí)別模塊用于分析指定范圍的文本的語義,并根據(jù)語義確定是否進(jìn)行斷句。
參考:
李電話機(jī)器人vad的介紹就聊到這里吧,感謝你花時(shí)間閱讀本站內(nèi)容,更多關(guān)于李響和機(jī)器人、李電話機(jī)器人vad的信息別忘了在本站進(jìn)行查找喔。