主頁(yè) > 知識(shí)庫(kù) > 富士通研發(fā)基于深度學(xué)習(xí)的短時(shí)長(zhǎng)聲紋認(rèn)證技術(shù)

富士通研發(fā)基于深度學(xué)習(xí)的短時(shí)長(zhǎng)聲紋認(rèn)證技術(shù)

熱門(mén)標(biāo)簽:濟(jì)源防封號(hào)電銷機(jī)器人銷售 宿遷手機(jī)外呼系統(tǒng)排名 百度地圖標(biāo)注錯(cuò)誤修改 西寧人工智能電銷機(jī)器人 自動(dòng)語(yǔ)音電話機(jī)器人 廣州400電話號(hào)辦理 新鄉(xiāng)智能外呼系統(tǒng)好處 廊坊外呼系統(tǒng)平臺(tái) 外呼手機(jī)卡和線路卡哪個(gè)好用
  富士通研究開(kāi)發(fā)中心有限公司(FRDC)開(kāi)發(fā)了一種高精度的聲紋認(rèn)證技術(shù),該技術(shù)利用深度學(xué)習(xí)方法,可以從一段很短的語(yǔ)音片段中甄別出說(shuō)話人的身份。該技術(shù)融合了兩個(gè)深度學(xué)習(xí)引擎,一個(gè)引擎用于提取與語(yǔ)音內(nèi)容相關(guān)的特征,而另一個(gè)引擎用于提取與說(shuō)話人相關(guān)的特征,從而實(shí)現(xiàn)了“語(yǔ)音密碼”身份認(rèn)證的功能,即:只有說(shuō)話人本人正確說(shuō)出預(yù)先設(shè)定的內(nèi)容時(shí),其身份才能被接受。利用該技術(shù),在不超過(guò)3s的語(yǔ)音片段上,身份認(rèn)證的錯(cuò)誤率可達(dá)到2.2%左右。
  該技術(shù)可廣泛應(yīng)用于呼叫中心及IoT設(shè)備交互等應(yīng)用中,通過(guò)快速安全的驗(yàn)證用戶的身份,強(qiáng)化操作的安全性和便利性。
  【開(kāi)發(fā)背景】
  聲紋識(shí)別是生物認(rèn)證領(lǐng)域的一個(gè)重要分支。由于具有可遠(yuǎn)程操作的獨(dú)特優(yōu)勢(shì),在金融業(yè)電話銀行業(yè)務(wù)、智能家居、刑偵安防等領(lǐng)域中,基于聲紋的身份認(rèn)證方式已經(jīng)逐漸被認(rèn)可,并成為防欺詐的一個(gè)重要手段。在呼叫中心業(yè)務(wù)中,顧客常常需要輸入密碼或通過(guò)回答一系列的問(wèn)題來(lái)驗(yàn)證其身份。這種問(wèn)詢式身份驗(yàn)證過(guò)程平均需要60秒以上的時(shí)間,既影響了客服的工作效率,又給顧客帶來(lái)厭煩情緒。因此,開(kāi)發(fā)一種安全有效的遠(yuǎn)程身份驗(yàn)證方式,將大幅提升呼叫中心的運(yùn)營(yíng)效率,降低其運(yùn)營(yíng)成本。
  【課題】
  傳統(tǒng)的聲紋識(shí)別技術(shù),依靠統(tǒng)計(jì)學(xué)和信號(hào)處理技術(shù)從語(yǔ)音中提取與說(shuō)話人特質(zhì)相關(guān)的特征,以此實(shí)現(xiàn)身份認(rèn)證。然而,該技術(shù)往往需要較長(zhǎng)的語(yǔ)音才能鑒定說(shuō)話人的身份,例如30秒時(shí)長(zhǎng)。在金融業(yè)呼叫中心及IoT設(shè)備交互等應(yīng)用中,需要快速驗(yàn)證用戶的身份,傳統(tǒng)的聲紋識(shí)別技術(shù)顯然不能滿足這種需求。此外,傳統(tǒng)的認(rèn)證方式不能防止利用他人的錄音來(lái)假冒身份的欺詐行為。
  【開(kāi)發(fā)的方法】
  (1)采用深度學(xué)習(xí)技術(shù)有效降低語(yǔ)音時(shí)長(zhǎng)
  傳統(tǒng)的聲紋識(shí)別技術(shù)通常將語(yǔ)音分割成小片段(一般為20ms左右,稱為一幀),然后,利用上千個(gè)高斯模型,從每一個(gè)語(yǔ)音片段中甄別出與說(shuō)話人相關(guān)的特征。由于高斯模型數(shù)目多、維度高,因此,只有當(dāng)語(yǔ)音數(shù)據(jù)足夠多時(shí),這種統(tǒng)計(jì)方法才能獲得有效的說(shuō)話人特征。如圖1所示,深度學(xué)習(xí)技術(shù)能同時(shí)處理多幀語(yǔ)音片段,從中學(xué)習(xí)與說(shuō)話人特有的特征。由于處理的語(yǔ)音長(zhǎng)度增加,因此,其包含了更多的與發(fā)音方式相關(guān)的特征,例如語(yǔ)調(diào)變化、停頓、音頻等。所以,這種上下文技術(shù)能大大降低身份認(rèn)證所需要的語(yǔ)音長(zhǎng)度。
  (2)融合說(shuō)話人特征與語(yǔ)音內(nèi)容
  本技術(shù)中,我們采用兩個(gè)深度學(xué)習(xí)模型,分別提取和說(shuō)話人本身相關(guān)的特征以及語(yǔ)音內(nèi)容進(jìn)行身份驗(yàn)證,從而實(shí)現(xiàn)了“語(yǔ)音密碼”功能,即:只有說(shuō)話人本人正確說(shuō)出預(yù)先設(shè)定的內(nèi)容時(shí),其身份才能被接受,如圖2所示。采用固定的語(yǔ)音密碼,一方面能防止利用他人的錄音來(lái)假冒身份的欺詐行為,此外,還能幫助提取更有效的說(shuō)話人特征。例如:某人的語(yǔ)音密碼中包含了音節(jié)[a],而此人對(duì)音節(jié)[a]的發(fā)音模式與他人不同,那么,這個(gè)特定的模式就被說(shuō)話人模型所學(xué)習(xí),成為區(qū)分此人的一個(gè)重要特征。即使他人知道了語(yǔ)音密碼,由于音節(jié)[a]的發(fā)音模式不同,其身份也不能被接受。
  【效果】
  由于充分利用了上下文信息,我們的技術(shù)只需要2-3秒的語(yǔ)音片段就可以甄別出說(shuō)話人的身份。雖然語(yǔ)音長(zhǎng)度變短了,但是,我們的技術(shù)依然可以達(dá)到較高的識(shí)別精度。在一個(gè)由200人組成的數(shù)據(jù)集上,身份認(rèn)證的錯(cuò)誤率可低至2.2%左右。
  【將來(lái)】
  FRDC今后會(huì)將本技術(shù)應(yīng)用于金融保險(xiǎn)等行業(yè)的呼叫中心,向客戶提供高效安全的身份認(rèn)證解決方案。此外,F(xiàn)RDC還將繼續(xù)推進(jìn)和擴(kuò)大聲紋認(rèn)證在監(jiān)獄親情電話管理中的應(yīng)用。

標(biāo)簽:江西 駐馬店 廣東 黑龍江 韶關(guān) 定州 合肥

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《富士通研發(fā)基于深度學(xué)習(xí)的短時(shí)長(zhǎng)聲紋認(rèn)證技術(shù)》,本文關(guān)鍵詞  富士通,研發(fā),基于,深度,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《富士通研發(fā)基于深度學(xué)習(xí)的短時(shí)長(zhǎng)聲紋認(rèn)證技術(shù)》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于富士通研發(fā)基于深度學(xué)習(xí)的短時(shí)長(zhǎng)聲紋認(rèn)證技術(shù)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章