一、TTS簡介
TTS文語轉(zhuǎn)換用途很廣,包括電子郵件的閱讀、IVR系統(tǒng)的語音提示等等,目前IVR系統(tǒng)已廣泛應(yīng)用于各個行業(yè)(如電信、交通運輸?shù)龋?/P>
TTS所用的關(guān)鍵技術(shù)就是語音合成(SpeechSynthesis)。早期的TTS一般采用專用的芯片實現(xiàn),如德州儀器公司的TMS50C10/TMS50C57、飛利浦的PH84H36等,但主要用在家用電器或兒童玩具中。
而基于微機應(yīng)用的TTS一般用純軟件實現(xiàn),主要包括以下幾部分:
文本分析-對輸入文本進行語言學(xué)分析,逐句進行詞匯的、語法的和語義的分析,以確定句子的低層結(jié)構(gòu)和每個字的音素的組成,包括文本的斷句、字詞切分、多音字的處理、數(shù)字的處理、縮略語的處理等。
語音合成-把處理好的文本所對應(yīng)的單字或短語從語音合成庫中提取,把語言學(xué)描述轉(zhuǎn)化成言語波形。
韻律處理-合成音質(zhì)(Qualityof Synthetic Speech)是指語音合成系統(tǒng)所輸出的語音的質(zhì)量,一般從清晰度(或可懂度)、自然度和連貫性等方面進行主觀評價。清晰度是正確聽辨有意義詞語的百分率;自然度用來評價合成語音音質(zhì)是否接近人說話的聲音,合成詞語的語調(diào)是否自然; 連貫性用來評價合成語句是否流暢。
TTS純軟件處理的流程如下:
在語音輸出階段,語音輸出的方式取決于具體的應(yīng)用。
要合成出高質(zhì)量的語音,所采用的算法是極為復(fù)雜的,因此對機器的要求也非常高。算法的復(fù)雜度決定了目前微機并發(fā)進行多通道TTS的系統(tǒng)容量。
二、TTS在CTI的應(yīng)用中的基本構(gòu)架
在一般的CTI應(yīng)用系統(tǒng)中,都會有IVR(交互式語音應(yīng)答系統(tǒng))。IVR系統(tǒng)是呼叫中心的重要組成部分,通過IVR系統(tǒng),用戶可以利用音頻按健電話輸入信息,從系統(tǒng)中獲得預(yù)先錄制的數(shù)字或合成語音信息。具有TTS功能的IVR可以加快服務(wù)速度,節(jié)約服務(wù)成本,使IVR為呼叫者提供7*24小時的服務(wù)。
目前常見的IVR系統(tǒng)大都是通用的工控機平臺上插入語音板卡組成,并支持中文語音合成TTS等技術(shù)。
基本構(gòu)成如下圖所示:
一個典型的包含TTS服務(wù)的電話服務(wù)流程可分為:
用戶電話撥入,系統(tǒng)IVR響應(yīng),獲得用戶按鍵等信息。
IVR根據(jù)用戶的按鍵信息,向數(shù)據(jù)庫服務(wù)器申請相關(guān)數(shù)據(jù)。
數(shù)據(jù)庫服務(wù)器返回文本數(shù)據(jù)給IVR。
IVR通過其TCP通訊接口,將需要合成的文本信息發(fā)送給TTS服務(wù)器。
TTS服務(wù)器將用戶文本合成的語音數(shù)據(jù)分段通過TCP通訊接口發(fā)送給IVR服務(wù)器。
IVR服務(wù)器把分段語音數(shù)據(jù)組裝成為獨立的語音文件。
IVR播放相應(yīng)的語音文件給電話用戶。
一般的公網(wǎng)接入(IVR)大都采用工控機+語音板卡,而合成的語音數(shù)據(jù)則通過局域網(wǎng)傳給IVR。這種結(jié)構(gòu)只適用于簡單的應(yīng)用場合。
如果用這種方式去組建較大的系統(tǒng),則會存在諸多問題:
1、兩個瓶頸
(1)接入瓶頸:
單臺工控機的接入容量一般不超過8E1為宜。除了運行應(yīng)用程序外,它還要控制兩個實時端口:實時地通過局域網(wǎng)接收語音數(shù)據(jù),并要實時地將接收到的語音數(shù)據(jù)通過PCI(或ISA)總線傳遞給語音板卡,如下圖所示。
通過局域網(wǎng)傳遞語音數(shù)據(jù)本來就不能保證其時實時性,其結(jié)果就是用戶聽到的語音經(jīng)常斷續(xù),保證不了語音質(zhì)量。如果傳遞的語音數(shù)據(jù)是經(jīng)過壓縮的,語音數(shù)據(jù)本來就是通過TTS進行合成的,再經(jīng)過壓縮,則音質(zhì)會有很大的損傷,因此同樣保證不了語音質(zhì)量。從上圖中我們可以看到,經(jīng)TTS合成的語音數(shù)據(jù)從局域網(wǎng)經(jīng)過網(wǎng)卡,再通過主板PCI(或ISA)總線進入語音卡,最后進入電信網(wǎng),同樣語音數(shù)據(jù)通過計算機主板經(jīng)PCI(或ISA)總線進入語音卡也要求是實時的。這兩種實時性的要求會導(dǎo)致在接入量比較大的情況下,會給計算機的總線造成很大的負擔(dān)。因為總線的帶寬(數(shù)據(jù)吞吐量)是有限的。況且其它的板卡和接口(如聲卡、顯示卡等)也要直接或間接地占用總線。因此在接入量比較大的情況下,計算機的總線帶寬會成為一個比較關(guān)鍵的瓶頸。即便提高語音板卡的接入能力。在有大量電話接入的情況下,由于語音數(shù)據(jù)實時性的要求,也不能保證語音質(zhì)量。
(2)I/O插槽和語音板卡容量的限制:
目前計算機的I/O插槽,特別是PCI插槽有限,不可能插入大量的語音板卡,再加上語音板卡的容量不會太高,因此單臺計算機的接入能力相對較小。要組建比較大的系統(tǒng),就必須采用多臺計算機接入,這就必然會引入機間交換的問題。用語音板卡和多臺機器構(gòu)建大中型CTI系統(tǒng)時,機器間要通過電纜連接才能使系統(tǒng)同步運行,但交換用的時鐘同步信號和數(shù)據(jù)信號的頻率很高,極易受到外界干擾,造成系統(tǒng)的不穩(wěn)定。
2、系統(tǒng)復(fù)雜度的限制
基于語音板卡構(gòu)建較大規(guī)模的應(yīng)用系統(tǒng)時,除了系統(tǒng)穩(wěn)定性的因素外,還要考慮系統(tǒng)的復(fù)雜度。對一個應(yīng)用系統(tǒng)來說,除上面提到的因素外,復(fù)雜度本身就是影響系統(tǒng)穩(wěn)定性的要素之一。除此之外,系統(tǒng)復(fù)雜度的增加,會使系統(tǒng)的靈活性和可維性降低,從而導(dǎo)致系統(tǒng)未來維護、升級的成本和難度大大增加。
3、開發(fā)成本的考慮
很大一部分系統(tǒng)集成商,對硬件設(shè)備的一次購入成本考慮地較多,而開發(fā)方面的成本往往容易忽略。隨著人力成本的日益凸顯,使得一個應(yīng)用系統(tǒng)的開發(fā)成本越來越不容忽視。系統(tǒng)的開發(fā)如同搭積木,系統(tǒng)規(guī)模較小,用小積木搭建會更經(jīng)濟一些。而用小積木構(gòu)建大系統(tǒng)會使積木塊的數(shù)量增加,而這些積木塊又要協(xié)同工作,因而對開發(fā)人員能力和經(jīng)驗的要求會增加,同時系統(tǒng)開發(fā)周期也會加長,而系統(tǒng)的維護難度也隨之增加。這些因素都會導(dǎo)致在一個系統(tǒng)的生命周期內(nèi),其綜合運行成本的增加。
三、鼎銘基于分布式構(gòu)架的可編程交換機在大容量TTS中的應(yīng)用
深圳鼎銘電子技術(shù)有限公司推出的基于分布式構(gòu)架的具有高速數(shù)據(jù)傳輸性能的可編程交換機,給CTI應(yīng)用帶來了革命性的變化,獨有的分布式傳輸構(gòu)架使其交換機的整體性能和目前國內(nèi)外同類可編程交換機比較,有了根本上的超越。
鼎銘高速數(shù)據(jù)傳輸板置于其可編程交換機內(nèi),外部可以和多臺PC或工控機相連,因為可編程交換機可以級聯(lián),所以可以和外部連接的PC或工控機理論上沒有特別限制。這樣可編程交換機的內(nèi)部I/O總線(類比于PC機的PCI或ISA總線)就不再傳輸實時數(shù)據(jù)(如語音數(shù)據(jù)),而只負責(zé)非實時性的管理和信令數(shù)據(jù),語音或其它實時數(shù)據(jù)從外部PC直接傳入可編程交換機的高速數(shù)據(jù)傳輸板,然后通過交換直接進入外部公共電信網(wǎng)(PSTN)。
而對于需要錄音的語音或其它實時數(shù)據(jù)則從外部公共電信網(wǎng)(PSTN)通過可編程交換機內(nèi)部的交換直接進入高速數(shù)據(jù)傳輸板,再輸出到外部PC或工控機。這就解決了上面提到的實時語音數(shù)據(jù)的傳輸瓶頸問題。而可編程交換機本身的優(yōu)勢就在于它的高密度接入,對可編程交換機而言就不存在接入瓶頸問題。
除了解決上述兩個瓶頸問題,我們再來看看這種結(jié)構(gòu)的交換機帶來的其它優(yōu)勢:
首先,在解決實時數(shù)據(jù)瓶頸問題的同時,因為實時數(shù)據(jù)不再通過內(nèi)部的I/O總線,從而減輕了I/O總線負擔(dān),同時CPU的負擔(dān)也大大減輕了,而和高速數(shù)據(jù)板連接的外部PC所運行的應(yīng)用程序也單一化了(如錄音/放音、TTS、ASR等),而且具有了很強的可復(fù)制性。從而使基于可編程交換機構(gòu)建的應(yīng)用系統(tǒng)的復(fù)雜度大大降低,穩(wěn)定性和可靠性大大提高,從而在很大程度地降低了系統(tǒng)的開發(fā)成本和運行維護成本。另外,可編程交換機的專有電源系統(tǒng)也使系統(tǒng)穩(wěn)定性和可靠性大大加強。
另外,鼎銘可編程交換機的這種構(gòu)架,使整個交換機平臺具備了很強的開放性,捆綁獨立的第三方產(chǎn)品(如TTS、ASR等)非常方便,第三方產(chǎn)品只須改向一下輸出管道就可以了,產(chǎn)品本身無需作任何改動,因此更好地實現(xiàn)了第三方產(chǎn)品的價值。同時,又降低了最終客戶的系統(tǒng)構(gòu)建成本。
正是因為鼎銘可編程交換機從技術(shù)上突破了高速實時數(shù)據(jù)傳輸?shù)钠款i問題,真正意義上實現(xiàn)了分布式的客戶機/服務(wù)器體系結(jié)構(gòu),所以也特別適合構(gòu)建大容量的彩話系統(tǒng)、彩鈴系統(tǒng)、電話QQ等電信增值系統(tǒng),以及大容量的錄放音系統(tǒng)、TTS、ASR等應(yīng)用系統(tǒng)。
下圖示意了基于鼎銘可編程交換機構(gòu)建的大容量TTSIVR系統(tǒng)。TTS服務(wù)的電話服務(wù)流程變?yōu)椋?/P>
用戶電話撥入,接入系統(tǒng)(IVR)響應(yīng),獲得用戶按鍵等信息。
IVR根據(jù)用戶的按鍵信息,向數(shù)據(jù)庫服務(wù)器申請相關(guān)數(shù)據(jù)。
數(shù)據(jù)庫服務(wù)器返回文本數(shù)據(jù)給IVR。
IVR通過局域網(wǎng),將需要合成的文本信息發(fā)送給TTS服務(wù)器。
TTS服務(wù)器將用戶文本合成的語音數(shù)據(jù)直接輸出到可編程交換機的高速數(shù)據(jù)傳輸板。
高速數(shù)據(jù)傳輸板再將語音數(shù)據(jù)變成串行數(shù)據(jù)輸出到交換總線(無需CPU干預(yù))。
交換總線的語音數(shù)據(jù)通過接入端口進入公用電話網(wǎng)或公用數(shù)據(jù)網(wǎng),電話用戶聽取相關(guān)語音。
(來源:通信世界)