精品少妇ay一区二区三区,九七电影网97好电影,国产无码黄色网站

主頁(yè) > 知識(shí)庫(kù) > 【悟空揭秘】電話機(jī)器人的「識(shí)別」秘密 1 —— 語音識(shí)別

【悟空揭秘】電話機(jī)器人的「識(shí)別」秘密 1 —— 語音識(shí)別

　　電話機(jī)器人' target='_blank'>電話機(jī)器人是近幾年興起的人工智能' target='_blank'>人工智能產(chǎn)品，它主要通過電話群呼潛在客戶，溝通進(jìn)行信息篩選，幫助企業(yè)選擇意向客戶。企業(yè)使用電話機(jī)器人可以減少人工成本，提高工作效率。　　電話溝通也是語言進(jìn)行信息交流的一種方式，對(duì)人類來說，這是十分簡(jiǎn)單的一件事，但對(duì)于機(jī)器而言，就不是一件易事了，其中涉及了自動(dòng)語音識(shí)別技術(shù)。

　　語音識(shí)別，又稱為自動(dòng)語音識(shí)別（AutomaticSpeechRecognition，ASR），指讓計(jì)算機(jī)自動(dòng)將人類的語音內(nèi)容轉(zhuǎn)換成相應(yīng)文字。

　　語音識(shí)別技術(shù)已經(jīng)有五十多年的歷史，真正開始得到廣泛應(yīng)用，還是近幾年的事。隨著移動(dòng)設(shè)備、可穿戴設(shè)備、智能家居設(shè)備、車載系統(tǒng)變得越來越流行，對(duì)話交互也逐漸變成了人機(jī)交互中的重點(diǎn)。

　　1、語音識(shí)別的組成部分

　　語音識(shí)別主要由以下幾個(gè)基本模塊組成：信息處理和特征處理、聲學(xué)模型（AM）、語言模型（LM）、發(fā)音詞典和解碼器。

　　信號(hào)處理和特征提取。

　　它是語音識(shí)別系統(tǒng)的第一部分，其主要任務(wù)是接收最原始的音頻信號(hào)，為后面的聲學(xué)模型提取合適的有代表性的特征向量。同時(shí)，它也包括了一些信號(hào)處理技術(shù)，如盡可能降低環(huán)境噪聲、信道失真、說話人等因素對(duì)特征造成的影響。

　　聲學(xué)模型。

　　通常的語音識(shí)別系統(tǒng)大都使用隱馬爾科夫模型對(duì)詞、音節(jié)、音素等基本的聲學(xué)單元進(jìn)行建模，生成聲學(xué)模型?？梢院?jiǎn)單理解為是對(duì)發(fā)聲的建模，它能夠把語音輸入轉(zhuǎn)換成聲學(xué)表示的輸出。

　　語言模型。

　　語言模型對(duì)系統(tǒng)所需識(shí)別的語言進(jìn)行建模。正則語言、上下文無關(guān)文法在內(nèi)的各種語言模型都可以作為語言模型，目前大多數(shù)的語音識(shí)別系統(tǒng)普遍采用的還是基于統(tǒng)計(jì)的N元（N-gram）模型及其變體。它可以估計(jì)通過訓(xùn)練學(xué)習(xí)詞與詞之間的相互關(guān)系，來估計(jì)假設(shè)詞序列的可能性。

　　發(fā)音詞典。

　　發(fā)音詞典包含系統(tǒng)所能處理的單詞的集合及其發(fā)音。發(fā)音詞典得到了聲學(xué)模型建模單元和語言模型建模單元之間的映射關(guān)系，將兩者連接起來，組成一個(gè)搜索的狀態(tài)空間用于解碼器進(jìn)行解碼工作。

　　解碼器。

　　解碼器是語音識(shí)別系統(tǒng)的核心之一，其任務(wù)主要負(fù)責(zé)讀取輸入的語音信號(hào)的特征序列，再根據(jù)聲學(xué)模型、語言模型及發(fā)音詞典，解碼出以最大概率輸出該信號(hào)的詞串。　　語音識(shí)別就是一個(gè)先編碼后解碼的過程，信號(hào)處理和特征提取就是編碼的過程，由原始的語音得到語音向量。后面即是對(duì)語音向量的解碼，而解碼需要上面提到的聲學(xué)模型和語言模型。

　　2、機(jī)器如何識(shí)別語音

　　與計(jì)算機(jī)視覺不同，語音識(shí)別有且只有一個(gè)核心任務(wù)——將人類的語音轉(zhuǎn)換成文字。簡(jiǎn)單來描述機(jī)器識(shí)別語音的過程：語言由單詞組成，單詞由音素組成，假如我們將一段語音的聲波按幀切開，用幀組成狀態(tài)，用狀態(tài)組成音素，再將音素合成單詞，語音就變成了文字。

　　音素：音素是最小的語音單位，一個(gè)發(fā)音動(dòng)作形成一個(gè)音素。音素構(gòu)成音節(jié)，音節(jié)又構(gòu)成不同的詞和短語。音素又分為元音和輔音。　　狀態(tài)：這里可以將其理解成比音素更細(xì)致的語音單位。通常把一個(gè)音素劃分成3個(gè)狀態(tài)。

　　3、語音識(shí)別的應(yīng)用及發(fā)展

　　現(xiàn)在中應(yīng)用比較廣泛的語音識(shí)別軟件有IBM公司的Viovoice、科大訊飛的語音識(shí)別產(chǎn)品、蘋果的Siri等，而如今市面上的智能音箱、車載裝備等產(chǎn)品也都是語音識(shí)別看得見摸得著的應(yīng)用?？梢哉f，語音識(shí)別技術(shù)是人工智能落地比較成熟的技術(shù)領(lǐng)域之一。　　雖然語音識(shí)別技術(shù)仍然還有許多亟待提高的地方，比如方言的語音識(shí)別、高噪音環(huán)境下的語音識(shí)別等方面還有一段路要走。但不可否認(rèn)的是，隨著信息技術(shù)的不斷發(fā)展，語音識(shí)別技術(shù)也將不斷獲得突破，有著更加廣闊的發(fā)展空間。
擴(kuò)展：揭秘|電話機(jī)器人的「理解」秘密2——自然語言處理（http://www.hzdaba.com/news/2018/0818/256.html）

標(biāo)簽：衢州百色白山昌都廊坊喀什黃石昭通

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《【悟空揭秘】電話機(jī)器人的「識(shí)別」秘密 1 —— 語音識(shí)別》，本文關(guān)鍵詞悟空,揭秘,電話,機(jī)器,人的,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。