POST TIME:2021-07-22 17:07
什么是ASR
語音識別技術(shù),也被稱為自動語音識別AutomaTIc Speech RecogniTIon(ASR),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
國內(nèi)發(fā)展
我國語音識別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實驗室逐步走向?qū)嵱?。?987年開始執(zhí)行國家863計劃后,國家863智能計算機專家組為語音識別技術(shù)研究專門立項,每兩年滾動一次。我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術(shù)上還有自己的特點與優(yōu)勢,并達到國際先進水平。中科院自動化所、聲學(xué)所、清華大學(xué)、北京大學(xué)、哈爾濱工業(yè)大學(xué)、上海交通大學(xué)、中國科技大學(xué)、北京郵電大學(xué)、華中科技大學(xué)等科研機構(gòu)都有實驗室進行過語音識別方面的研究,其中具有代表性的研究單位為清華大學(xué)電子工程系與中科院自動化研究所模式識別國家重點實驗室。
清華大學(xué)電子工程系語音技術(shù)與專用芯片設(shè)計課題組,研發(fā)的非特定人漢語數(shù)碼串連續(xù)語音識別系統(tǒng)的識別精度,達到94.8%(不定長數(shù)字串)和96.8%(定長數(shù)字串)。在有5%的拒識率情況下,系統(tǒng)識別率可以達到96.9%(不定長數(shù)字串)和98.7%(定長數(shù)字串),這是目前國際最好的識別結(jié)果之一,其性能已經(jīng)接近實用水平。研發(fā)的5000詞郵包校核非特定人連續(xù)語音識別系統(tǒng)的識別率達到98.73%,前三選識別率達99.96%;并且可以識別普通話與四川話兩種語言,達到實用要求。
語音識別系統(tǒng)的三大部分
語音信號預(yù)處理與特征提取:語音識別一個根本的問題是合理的選用特征。特征參數(shù)提取的目的是對語音信號進行分析處理,去掉與語音識別無關(guān)的冗余信息,獲得影響語音識別的重要信息,同時對語音信號進行壓縮。
聲學(xué)模型與模式匹配:聲學(xué)模型通常是將獲取的語音特征使用訓(xùn)練算法進行訓(xùn)練后產(chǎn)生。在識別時將輸入的語音特征同聲學(xué)模型(模式)進行匹配與比較,得到最佳的識別結(jié)果。
語言模型與語言處理:語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計方法構(gòu)成的語言模型,語言處理可以進行語法、語義分析。