ASR(Automatic Speech Recognition) 自動(dòng)語(yǔ)音識(shí)別,是一種使用計(jì)算機(jī)來(lái)識(shí)別人通過(guò)電話或麥克說(shuō)話產(chǎn)生的語(yǔ)音信號(hào)的語(yǔ)音技術(shù)。作為專(zhuān)門(mén)的研究領(lǐng)域,ASR又是一門(mén)交叉學(xué)科,它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理理論、信息論、計(jì)算機(jī)科學(xué)等眾多學(xué)科緊密相連。
在ASR中用到的最主要的技術(shù)是隱馬爾可夫模型(Hidden Markov Model,HMM)。這種技術(shù)通過(guò)判斷每個(gè)相鄰小區(qū)的語(yǔ)音信號(hào)最可能是哪一個(gè)音素來(lái)識(shí)別單詞,因?yàn)樵~匯表里的單詞其實(shí)就是音素的組合。通過(guò)一種叫作Viterbi(一種動(dòng)態(tài)規(guī)劃算法,一般用于序列的譯碼)的搜索過(guò)程來(lái)決定最有可能是哪一個(gè)因素序列。搜索局限于詞匯表的單詞所對(duì)應(yīng)的音素序列。ASR引擎的工作過(guò)程如圖:
①前端語(yǔ)音處理:完成端點(diǎn)(話音的起始點(diǎn)和結(jié)束點(diǎn))檢測(cè)、降噪等。
②識(shí)別:根據(jù)聲學(xué)模型、語(yǔ)言模型、語(yǔ)法進(jìn)行識(shí)別。聲學(xué)模型是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的部分,它的作用就是前面提到的確定音素序列。語(yǔ)言模型是指語(yǔ)言中的一些規(guī)則或語(yǔ)法結(jié)構(gòu),是表現(xiàn)字或詞上下文之間的統(tǒng)計(jì)模型。語(yǔ)言模型可以預(yù)測(cè)在句子中某個(gè)位置最可能出現(xiàn)的單詞。語(yǔ)法對(duì)所有可能識(shí)別的語(yǔ)言進(jìn)行描述,簡(jiǎn)單地說(shuō),語(yǔ)法告訴識(shí)別器應(yīng)該聽(tīng)什么。語(yǔ)法可以用有向圖來(lái)描述,圖中的節(jié)點(diǎn)可以是一個(gè)單詞或一個(gè)句子,如果識(shí)別成功,識(shí)別的結(jié)果將是圖的一條路徑。
③產(chǎn)生識(shí)別結(jié)果:識(shí)別結(jié)果按照一定的文本結(jié)構(gòu)返回。
ASR分為兩種:一種是獨(dú)立于人的識(shí)別,即不管是誰(shuí),只要他說(shuō)的話是一樣的,識(shí)別結(jié)果都是相同的,它主要應(yīng)用于人機(jī)交互,使用語(yǔ)言作為輸入的優(yōu)勢(shì)是顯而易見(jiàn)的,方便快捷;另一種是特定人的識(shí)別,又叫聲紋校驗(yàn),主要用來(lái)進(jìn)行身份驗(yàn)證。在本文中討論的ASR指的是第一種。
由于語(yǔ)音信號(hào)的多樣性和復(fù)雜性,目前的語(yǔ)音識(shí)別系統(tǒng)只能在一定的限制條件下獲得滿意的性能,或者說(shuō)只能應(yīng)用于某些特定的場(chǎng)合。語(yǔ)音識(shí)別系統(tǒng)的性能大致取決于以下4類(lèi)因素:識(shí)別詞匯表的大小和語(yǔ)音的復(fù)雜性;語(yǔ)音信號(hào)的質(zhì)量;單個(gè)說(shuō)話人還是多說(shuō)話人;硬件平臺(tái)。
語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、IVR語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫(xiě)數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,例如語(yǔ)音到語(yǔ)音的翻譯。語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。特別是在電話機(jī)器人中的IVR起作重要的作作