主頁(yè) > 智能呼叫系統(tǒng) > 行業(yè)資訊 > 電話機(jī)器人超越你對(duì)語(yǔ)音識(shí)別的認(rèn)知

電話機(jī)器人超越你對(duì)語(yǔ)音識(shí)別的認(rèn)知

POST TIME:2021-07-26 13:21

電話機(jī)器人是近兩年興起的人工智能產(chǎn)品,它主要經(jīng)過(guò)電話群呼潛在客戶,溝通進(jìn)行信息挑選,協(xié)助企業(yè)選擇意向客戶。企業(yè)運(yùn)用電話機(jī)器人能夠削減人工成本,進(jìn)步作業(yè)效率。

電話溝通也是言語(yǔ)進(jìn)行信息溝通的一種方法,對(duì)人類來(lái)說(shuō),這是十分簡(jiǎn)略的一件事,但關(guān)于機(jī)器而言,就不是一件易事了,其間觸及了主動(dòng)語(yǔ)音識(shí)別技術(shù)。

語(yǔ)音識(shí)別,又稱為主動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR),指讓計(jì)算機(jī)主動(dòng)將人類的語(yǔ)音內(nèi)容轉(zhuǎn)換成相應(yīng)文字。 

語(yǔ)音識(shí)別技術(shù)已經(jīng)有五十多年的歷史,真實(shí)開(kāi)端得到廣泛使用,仍是近幾年的事。隨著移動(dòng)設(shè)備、可穿戴設(shè)備、智能家居設(shè)備、車載體系變得越來(lái)越盛行,對(duì)話交互也逐步變成了人機(jī)交互中的要點(diǎn)。

語(yǔ)音識(shí)別主要由以下幾個(gè)根本模塊組成:信息處理和特征處理、聲學(xué)模型(AM)、言語(yǔ)模型(LM)、發(fā)音詞典和解碼器。

信號(hào)處理和特征提取。它是語(yǔ)音識(shí)別體系的榜首部分,其主要使命是接納最原始的音頻信號(hào),為后邊的聲學(xué)模型提取合適的有代表性的特征向量。一起,它也包括了一些信號(hào)處理技術(shù),如盡可能降低環(huán)境噪聲、信道失真、說(shuō)話人等要素對(duì)特征造成的影響。

聲學(xué)模型。一般的語(yǔ)音識(shí)別體系大都運(yùn)用隱馬爾科夫模型對(duì)詞、音節(jié)、音素等根本的聲學(xué)單元進(jìn)行建模,生成聲學(xué)模型。能夠簡(jiǎn)略了解為是對(duì)發(fā)聲的建模,它能夠把語(yǔ)音輸入轉(zhuǎn)換成聲學(xué)表明的輸出。

言語(yǔ)模型。言語(yǔ)模型對(duì)體系所需識(shí)別的言語(yǔ)進(jìn)行建模。正則言語(yǔ)、上下文無(wú)關(guān)文法在內(nèi)的各種言語(yǔ)模型都能夠作為言語(yǔ)模型,現(xiàn)在大多數(shù)的語(yǔ)音識(shí)別體系遍及選用的仍是基于計(jì)算的N元(N-gram)模型及其變體。它能夠估量經(jīng)過(guò)練習(xí)學(xué)習(xí)詞與詞之間的相互聯(lián)系,來(lái)估量假定詞序列的可能性。

發(fā)音詞典。發(fā)音詞典包括體系所能處理的單詞的調(diào)集及其發(fā)音。發(fā)音詞典得到了聲學(xué)模型建模單元和言語(yǔ)模型建模單元之間的映射聯(lián)系,將兩者連接起來(lái),組成一個(gè)查找的狀況空間用于解碼器進(jìn)行解碼作業(yè)。

解碼器。解碼器是語(yǔ)音識(shí)別體系的中心之一,其使命主要擔(dān)任讀取輸入的語(yǔ)音信號(hào)的特征序列,再根據(jù)聲學(xué)模型、言語(yǔ)模型及發(fā)音詞典,解碼出以最大概率輸出該信號(hào)的詞串。

語(yǔ)音識(shí)別就是一個(gè)先編碼后解碼的進(jìn)程,信號(hào)處理和特征提取就是編碼的進(jìn)程,由原始的語(yǔ)音得到語(yǔ)音向量。后邊便是對(duì)語(yǔ)音向量的解碼,而解碼需求上面說(shuō)到的聲學(xué)模型和言語(yǔ)模型。

與計(jì)算機(jī)視覺(jué)不同,語(yǔ)音識(shí)別有且只有一個(gè)中心使命——將人類的語(yǔ)音轉(zhuǎn)換成文字。簡(jiǎn)略來(lái)描繪機(jī)器識(shí)別語(yǔ)音的進(jìn)程:言語(yǔ)由單詞組成,單詞由音素組成,假設(shè)咱們將一段語(yǔ)音的聲波按幀切開(kāi),用幀組成狀況,用狀況組成音素,再將音素組成單詞,語(yǔ)音就變成了文字。

音素:音素是最小的語(yǔ)音單位,一個(gè)發(fā)音動(dòng)作構(gòu)成一個(gè)音素。音素構(gòu)成音節(jié),音節(jié)又構(gòu)成不同的詞和短語(yǔ)。音素又分為元音和子音。

狀況:這兒能夠?qū)⑵淞私獬杀纫羲馗敱M的語(yǔ)音單位。一般把一個(gè)音素劃分紅3個(gè)狀況。

現(xiàn)在中使用比較廣泛的語(yǔ)音識(shí)別軟件有IBM公司的Viovoice、科大訊飛的語(yǔ)音識(shí)別產(chǎn)品、蘋(píng)果的Siri等,而現(xiàn)在市面上的智能音箱、車載配備等產(chǎn)品也都是語(yǔ)音識(shí)別看得見(jiàn)摸得著的使用。能夠說(shuō),語(yǔ)音識(shí)別技術(shù)是人工智能落地比較老練的技術(shù)領(lǐng)域之一。

盡管語(yǔ)音識(shí)別技術(shù)仍然還有許多亟待進(jìn)步的地方,比如方言的語(yǔ)音識(shí)別、高噪音環(huán)境下的語(yǔ)音識(shí)別等方面還有一段路要走。但不可否認(rèn)的是,隨著信息技術(shù)的不斷開(kāi)展,語(yǔ)音識(shí)別技術(shù)也將不斷獲得打破,有著愈加寬廣的開(kāi)展空間。

標(biāo)簽:活動(dòng)通知 景德鎮(zhèn) 阿里 蘭州



收縮
  • 微信客服
  • 微信二維碼
  • 電話咨詢

  • 400-1100-266