智能語音交互隨著智能硬件產(chǎn)品的發(fā)展,在機(jī)器人、家居家電、車載等產(chǎn)品中,已經(jīng)有了廣泛的應(yīng)用,被譽(yù)為下一代人機(jī)交互方式。
不過,互聯(lián)網(wǎng)時(shí)代的語音識(shí)別在很多場(chǎng)景中,都在手機(jī)等近講設(shè)備上完成。所謂的近講設(shè)備,是指設(shè)備只有1到2個(gè)麥克風(fēng),語音交互距離只能局限在0.5米范圍,且對(duì)周圍的噪音抑制能力較差。
在物聯(lián)網(wǎng)時(shí)代,如果想要在遠(yuǎn)場(chǎng)識(shí)別的產(chǎn)品中,達(dá)到一個(gè)好的語音交互體驗(yàn),引入麥克風(fēng)陣列產(chǎn)品勢(shì)在必行,麥克風(fēng)陣列利用聲音信號(hào)處理算法,對(duì)空間中的聲音做信號(hào)處理。
例如,在語音喚醒時(shí),定位說話人的方位,進(jìn)而增強(qiáng)說話人方向的語音,抑制說話人方向以外的聲音,同時(shí)抑制非人聲背景音,另外對(duì)設(shè)備自己播放的聲音也可以通過回聲消除功能過濾掉,實(shí)現(xiàn)語音打斷的交互體驗(yàn)。
麥克風(fēng)陣列通過2個(gè),4個(gè)或者6個(gè)麥克風(fēng),組成線性布局陣列或者環(huán)形布局陣列,可以實(shí)現(xiàn)3~5米范圍內(nèi)的有效拾音,配合優(yōu)化的遠(yuǎn)場(chǎng)識(shí)別模型,語音識(shí)別率可以達(dá)到95%以上。
捷通華聲和清華大學(xué)合作,在和合作伙伴推出一系列麥克風(fēng)陣列硬件產(chǎn)品后,麥克風(fēng)陣列SDK即將登陸靈云平臺(tái)(aicloud.com)。
屆時(shí),智能硬件的開發(fā)者在靈云平臺(tái)的開發(fā)者社區(qū)即可完成麥克風(fēng)陣列SDK下載。在捷通華聲技術(shù)支持人員的配合下,完成SDK集成,實(shí)現(xiàn)麥克風(fēng)陣列技術(shù)和智能硬件產(chǎn)品的結(jié)合,打造出具備出色語音交互體驗(yàn)的機(jī)器人、家電、音箱、車載產(chǎn)品。
捷通華聲依托清華大學(xué)在麥克風(fēng)陣列信號(hào)處理領(lǐng)域10多年的技術(shù)積累,在產(chǎn)品化的過程中,不斷和客戶的產(chǎn)品磨合,使麥克風(fēng)陣列核心技術(shù)在語音喚醒、聲源定向、回聲消除、語音降噪等方面均達(dá)到了行業(yè)領(lǐng)先水平。
作為捷通華聲靈云人工智能平臺(tái)的第11項(xiàng)核心技術(shù),麥克風(fēng)陣列技術(shù)登錄靈云平臺(tái)后,配合已有的云+端語音識(shí)別、語義理解、語音合成、聲紋識(shí)別等語音技術(shù),可以為客戶產(chǎn)品提供全鏈條的語音交互產(chǎn)品和服務(wù)。
無論客戶的產(chǎn)品是哪一種平臺(tái),哪一種形態(tài),靈云VUI(Voice User Interface)均可以提供對(duì)應(yīng)的方案,提供定制化的語音服務(wù),和客戶一起推出差異化語音交互的產(chǎn)品。
一些QA
Q:如何使用靈云麥克風(fēng)陣列SDK?
A:開發(fā)者需要登錄靈云開發(fā)者社區(qū),下載對(duì)應(yīng)版本的麥克風(fēng)陣列SDK,對(duì)于需要移植SDK的硬件系統(tǒng)平臺(tái),開發(fā)者需要聯(lián)系靈云技術(shù)支持工程師,溝通移植對(duì)應(yīng)的SDK版本。
Q:怎么將SDK與麥克風(fēng)硬件結(jié)合起來?
A:用戶的智能硬件產(chǎn)品,需要支持安卓,windows或者linux系統(tǒng),同時(shí)可以采集到2路,4路或者6路麥克風(fēng)原始錄音,以及1路或者2路回聲消除參考音頻,需要和靈云技術(shù)支持工程師溝通,保證錄音和靈云麥克風(fēng)陣列SDK適配。
Q:2/4/6麥克風(fēng)陣列分別適合哪些智能硬件?
A:主要看設(shè)備的形狀、尺寸和應(yīng)用場(chǎng)景,例如,空調(diào)通常是面向前方180°拾音,用線性陣列,2/4麥克風(fēng)都可以;家庭陪伴機(jī)器人在室內(nèi)四處走動(dòng),需要拾取來自360°各個(gè)方向的聲音,可以用4/6麥克風(fēng)環(huán)形陣列。當(dāng)然,麥克風(fēng)越多,拾音和定向效果越好。
Q:麥克風(fēng)陣列SDK是否需要適配靈云遠(yuǎn)場(chǎng)識(shí)別SDK?
A:原則上沒有對(duì)第三方語音識(shí)別做限制,不過考慮到后續(xù)語音識(shí)別的優(yōu)化,建議采用靈云遠(yuǎn)場(chǎng)語音識(shí)別SDK。除了靈云遠(yuǎn)場(chǎng)語音識(shí)別SDK,做為全方位的人工智能平臺(tái),靈云平臺(tái)的聲紋識(shí)別SDK也可以配合麥克風(fēng)陣列SDK做優(yōu)化。
靈云麥克風(fēng)陣列高級(jí)產(chǎn)品經(jīng)理高江江介紹到,相比市場(chǎng)上的同類產(chǎn)品,靈云麥克風(fēng)陣列SDK登錄靈云平臺(tái)后,作為全球第一個(gè)開放的麥克風(fēng)陣列平臺(tái)服務(wù)提供商,充分表明捷通華聲的用戶理念,即全面擁抱智能語音硬件產(chǎn)品的合作伙伴,致力于和客戶一起推出差異化的語音交互產(chǎn)品。
靈云平臺(tái)的第11項(xiàng)核心技術(shù)——麥克風(fēng)陣列技術(shù),在全面服務(wù)智能硬件產(chǎn)業(yè)的過程中,必然會(huì)將語音交互產(chǎn)品從傳統(tǒng)的近講時(shí)代推向遠(yuǎn)場(chǎng)語音交互時(shí)代。
靈云平臺(tái)更多信息:www.aicloud.com
體驗(yàn)靈云客服機(jī)器人:010-82826886-8898