人工智能時代的到來,語音合成技術(shù)已在車載導(dǎo)航、朗讀軟件、高鐵廣播等各行各業(yè)中廣泛應(yīng)用。隨著技術(shù)的日新月異,擺脫機械化的發(fā)音,像真人一樣擁有極具情感表現(xiàn)力、抑揚頓挫的聲音,不僅是語音合成技術(shù)的發(fā)展方向,也是難點之一。
憑借十多年深厚的技術(shù)積累及行業(yè)應(yīng)用,捷通華聲打造出具有劃時代意義的靈云情感語音合成技術(shù),能夠合成出帶有語氣、情緒等情感豐富、更接近真人的聲音,并可通過“云+端”的形式讓每一家企業(yè)都能輕松擁有更動聽、更富感情的語音合成服務(wù)。
為了賦予聲音更多的表現(xiàn)力和個性化,讓新一代合成技術(shù)適配到各種非標準化的場景中,提升用戶對企業(yè)專屬聲音的“粘性”,捷通華聲基于深度學(xué)習(xí)技術(shù)潛心研發(fā),實現(xiàn)了合成效果的全面提升,音色細節(jié)高保真、情感真實豐富,流暢度平順穩(wěn)定,頓挫的頑疾徹底根治,并廣泛采用GAN(生成對抗網(wǎng)絡(luò))來訓(xùn)練模型,提高音質(zhì)的擬人度。
全面升級打造極致聲音體驗
在語音合成需求市場,不同企業(yè)會根據(jù)自身不同的場景和產(chǎn)品特點采用不同的聲音,例如銀行的智能客服需要嗓音甜美、溫柔動人的聲音,而催收公司則需要措辭懇切、略顯嚴厲的聲音。語音合成的情感化、個性化成為如今市場的迫切需求。
全新升級的靈云情感語音合成技術(shù)在發(fā)音效果上顯著提升,吐字更清晰、順暢,緩解合成中的刺耳雜音,音質(zhì)更加扎實、明亮,在一些細節(jié)及專業(yè)領(lǐng)域的發(fā)音上也進行了優(yōu)化,例如:標點的韻律停頓更接近真人;金額、日期等數(shù)字發(fā)音效果更加自然;“年月日元”、“百分之”、“點”等分詞朗讀時的發(fā)音也更加順暢;在對標注為人名的詞可直接按姓氏讀音,提高了技術(shù)使用便捷性。
在合成音色的情感化、個性化更加明顯,靈云情感語音合成技術(shù)采用高魯棒性預(yù)處理和建??蚣?,降低了以往對錄音風(fēng)格和穩(wěn)定性的嚴格約束,普通人自然講話、刻意帶情緒講話、角色模仿講話,均可訓(xùn)練出保真、穩(wěn)定的效果。除了提供男聲、女聲、童聲等基礎(chǔ)音色庫外,還有更多個性化、飽含情感的音色,包括柔美動聽、干凈利落、甜美可愛、純真自然、成熟穩(wěn)重、熱情洋溢、措辭嚴厲等等,可為各種應(yīng)用場景提供合適的聲音,全面滿足企業(yè)個性化需求。
面對專業(yè)領(lǐng)域的合成需求時,新一代合成技術(shù)也進行了優(yōu)化,例如:面對導(dǎo)航類的合成時,遇到“從XX到XX”這類句式中的長地址,會分段停頓播報(如“北京市/海淀區(qū)/中關(guān)村軟件園/2號樓”)。
同時,捷通華聲十多年來積累了大量的領(lǐng)域詞庫、預(yù)選音庫,可為金融證券、天氣預(yù)報、體育賽事、公交汽運、航空、稅務(wù)、POI、排隊叫號等眾多領(lǐng)域提供更專業(yè)的語音合成播報,客戶能夠快速、輕松定制與自己產(chǎn)品屬性、形象相匹配的聲音,為產(chǎn)品賦能。
針對不同企業(yè)的特殊需求,捷通華聲也支持音庫的個性化定制。傳統(tǒng)語料數(shù)據(jù)處理方式為手工精標,既費時又費力,捷通華聲采用先進的人工智能技術(shù),實現(xiàn)高度自動化的數(shù)據(jù)加工標注,并擁有專業(yè)的數(shù)據(jù)定制團隊,企業(yè)只需提供自己需求的音色錄音,即可快速定制出音庫。
專注AI技術(shù)研發(fā)引領(lǐng)行業(yè)變革
十多年來,捷通華聲一直專注技術(shù)研發(fā)與創(chuàng)新,依靠國內(nèi)領(lǐng)先的靈云語音合成技術(shù),在國內(nèi)智能語音市場占有率超50%:
早在2001年,捷通華聲便推出代表國際領(lǐng)先水平的jTTS世紀版。隨后,捷通華聲成為建行、農(nóng)行的唯一語音合成供應(yīng)商,全國99%的高鐵站也均采用靈云語音合成播報。同時捷通華聲成功服務(wù)北京奧運會,上海世博會也采用靈云語音合成技術(shù)播報賽事。到2016年,捷通華聲已成功為上千家企業(yè)提供語音合成技術(shù)。
讓聲音自然,富有情感和表現(xiàn)力,一直是語音合成技術(shù)的一大難點。如今,靈云語音合成技術(shù)已全面支持中文普通話、粵語、維吾爾語、英語、日語、德語、法語等幾十種語言。捷通華聲正在利用全新推出的靈云情感語音合成技術(shù),為金融、電信、能源、交通、政府、醫(yī)療、互聯(lián)網(wǎng)等上千家企業(yè)提供更加優(yōu)質(zhì)的服務(wù),全新體驗的語音合成產(chǎn)品引發(fā)了巨大變革。
不論是智能客服、地圖導(dǎo)航、機場廣播的甜美女聲,還是新聞播報、聽書朗讀的清爽男聲,智能家電、機器人的可愛童聲,靈云情感語音合成技術(shù)都能讓有各種需求的企業(yè)快速擁有更具競爭力的產(chǎn)品,讓社會大眾能夠體驗到富具情感、更聲情并茂的聽覺體驗,為企業(yè)打造專屬“聲音”形象。