任務(wù)型電話機(jī)器人的斷句機(jī)制分析,電話機(jī)器人與純文本機(jī)器人最大的不同是需要經(jīng)過語音端點(diǎn)檢測(cè)(VAD),即是對(duì)輸入的音頻流進(jìn)行分析,確定客戶說話的起點(diǎn)和終止點(diǎn)的處理過程。一旦檢測(cè)到客戶開始說話,語音開始流向語音識(shí)別引擎(ASR),直到檢測(cè)到客戶說話結(jié)束。這種方式能夠使得識(shí)別引擎在客戶說話的同時(shí)開始進(jìn)行識(shí)別處理,做到最大限度的即時(shí)處理。同時(shí),在實(shí)際應(yīng)用中至少會(huì)有以下5個(gè)方面的問題存在:
過于敏感的VAD的容易產(chǎn)生誤警,將非語音信號(hào)傳輸給ASR,導(dǎo)致較多的識(shí)別失敗。
過于保守的VAD的容易延遲觸發(fā),在語句的開頭漏掉一些有用的數(shù)據(jù),如“不是”變成了“是”。
提前錯(cuò)誤斷句會(huì)造成搶話,在語句的結(jié)尾漏掉一些有用的數(shù)據(jù)。
延遲斷句會(huì)造成響應(yīng)慢,容易使得一些干擾音進(jìn)入到識(shí)別語句中,導(dǎo)致文本數(shù)據(jù)存在噪聲。
語音信號(hào)的不完整性很可能會(huì)使識(shí)別率降低,如某個(gè)字的一部分音頻片段丟失,易造成該字識(shí)別錯(cuò)誤,進(jìn)而影響語言模型(LM)的馬爾科夫鏈。