北京時(shí)間2018年9月7日,國(guó)際多通道語音分離和識(shí)別大賽(CHiME)組委會(huì)在微軟海得拉巴研發(fā)中心揭曉了最新一屆CHiME-5的比賽結(jié)果,科大訊飛團(tuán)隊(duì)再次包攬大賽全部四個(gè)項(xiàng)目的冠軍并大幅刷新了各項(xiàng)目的最好成績(jī)!
CHiME(Computational Hearing in Multisource Environments)屬于國(guó)際語音識(shí)別評(píng)測(cè)中的高難度比賽,始辦于2011年,由法國(guó)計(jì)算機(jī)科學(xué)與自動(dòng)化研究所、英國(guó)謝菲爾德大學(xué)、美國(guó)三菱電子研究實(shí)驗(yàn)室等知名研究機(jī)構(gòu)所發(fā)起。比賽的目的是希望學(xué)術(shù)界和工業(yè)屆針對(duì)高噪聲和混響等現(xiàn)象影響下的實(shí)際場(chǎng)景提出全新的語音識(shí)別解決方案,以進(jìn)一步提升語音識(shí)別的實(shí)用性和普適性,目前CHiME比賽已經(jīng)舉辦五屆,成為業(yè)界影響力最大、參賽隊(duì)伍最多、水平最高的多通道噪聲魯棒性語音識(shí)別比賽。
歷屆CHiME比賽的參賽隊(duì)伍包括英國(guó)劍橋大學(xué)、美國(guó)卡內(nèi)基梅隆大學(xué)、約翰霍普金斯大學(xué)、日本NTT、日立中央研究院、德國(guó)RWTH亞琛大學(xué)等國(guó)際一流高校和研究機(jī)構(gòu),以及清華大學(xué)、中科院聲學(xué)所、中科院自動(dòng)化所、西北工業(yè)大學(xué)等國(guó)內(nèi)頂尖院校和研究所。
本屆大賽組委會(huì)通過采用4聲道麥克風(fēng)陣列對(duì)20個(gè)真實(shí)家庭的晚餐進(jìn)行錄音來形成比賽數(shù)據(jù),用以考察和測(cè)試在家庭聚會(huì)等不同場(chǎng)景中自由交談風(fēng)格下的遠(yuǎn)場(chǎng)語音識(shí)別效果。
音頻樣本采集場(chǎng)景
賽事的難點(diǎn)主要來自以下方面:
- 多麥克風(fēng)陣列的同步錄音
- 對(duì)話風(fēng)格非常自由、近乎隨意
- 大量的語音交疊(Speech Overlap)
- 遠(yuǎn)場(chǎng)混響和噪聲干擾對(duì)錄音的影響
在兩年之前的上一屆比賽(CHiME-4)中,科大訊飛就曾通過和國(guó)內(nèi)外知名院校專家、團(tuán)隊(duì)的深入合作和討論,斬獲全部三個(gè)項(xiàng)目的桂冠并大幅刷新了各項(xiàng)目歷史最好記錄。
而在本屆比賽中,科大訊飛與中國(guó)科學(xué)技術(shù)大學(xué)杜俊教授、西北工業(yè)大學(xué)陳景東教授、佐治亞理工大學(xué)李錦輝教授等國(guó)內(nèi)外知名專家團(tuán)隊(duì)再度攜手。最終在單麥克風(fēng)陣列任務(wù)、分布式麥克風(fēng)陣列任務(wù)(Rank A)和兩種麥克風(fēng)陣列對(duì)應(yīng)的兩個(gè)端到端的語音識(shí)別任務(wù)(Rank B),共計(jì)四項(xiàng)任務(wù)中連續(xù)兩屆包攬所有項(xiàng)目冠軍,再次大幅刷新各項(xiàng)目的最好成績(jī)。
各參賽機(jī)構(gòu)詞錯(cuò)誤率對(duì)比(單麥克風(fēng)陣列 Rank A)
各參賽機(jī)構(gòu)詞錯(cuò)誤率對(duì)比(分布式陣列 Rank A)
各參賽機(jī)構(gòu)詞錯(cuò)誤率對(duì)比(單麥克風(fēng)陣列 Rank B)
各參賽機(jī)構(gòu)詞錯(cuò)誤率對(duì)比(分布式陣列 Rank B)
根據(jù)比賽前官方數(shù)據(jù),基于主流前端系統(tǒng)和深度學(xué)習(xí)模型下本次比賽的樣本語音識(shí)別詞錯(cuò)誤率(Word Error Rate,WER)高達(dá)81.14%,堪稱“史上最難語音識(shí)別任務(wù)"。
而科大訊飛團(tuán)隊(duì)所提交的系統(tǒng),較官方基線系統(tǒng)將WER降低了絕對(duì)35個(gè)點(diǎn),在分布式麥克風(fēng)陣列任務(wù)中,系統(tǒng)的效果甚至超過近講麥克風(fēng),這不僅再次證明了科大訊飛在語音識(shí)別和多麥克風(fēng)陣列語音信號(hào)處理領(lǐng)域內(nèi)扎實(shí)的基本功和雄厚的實(shí)力,也表明了科大訊飛在中文語音識(shí)別領(lǐng)域長(zhǎng)期保持被追趕地位的同時(shí),英語語音識(shí)別領(lǐng)域也達(dá)到了同等高度和層次。
此前,在科技部召開的《新一代人工智能發(fā)展規(guī)劃》暨重大科技項(xiàng)目啟動(dòng)會(huì)會(huì)上,國(guó)家宣布了首批四家國(guó)家新一代人工智能開放創(chuàng)新平臺(tái)名單,明確依托科大訊飛建設(shè)智能語音國(guó)家新一代人工智能開放創(chuàng)新平臺(tái)。
啟動(dòng)會(huì)現(xiàn)場(chǎng)
在本次大賽中,科大訊飛所提交的系統(tǒng)在分布式麥克風(fēng)陣列任務(wù)上所取得的優(yōu)于近講麥克風(fēng)效果的成績(jī),得到了大賽組辦方的高度贊揚(yáng)。科大訊飛在智能語音技術(shù)方面的雄厚實(shí)力得到再次肯定與鞏固,未來,科大訊飛將繼續(xù)堅(jiān)持核心源頭技術(shù)研發(fā)創(chuàng)新,用AI賦能各行各業(yè)。