6月12日,科大訊飛在京舉辦了主題為“愛輸入 更懂你”的媒體見面會,會上訊飛輸入法市場品牌負(fù)責(zé)人李強軍介紹,目前訊飛輸入法用戶規(guī)模突破6億,語音輸入月覆蓋率達(dá)50%。同時,訊飛語音識別率也從97%提升至98%,訊飛輸入法支持?jǐn)U至23種方言,為更好利用AI來保護(hù)方言,訊飛將啟動方言發(fā)音人招募活動。
(圖片來源互聯(lián)網(wǎng))
“輸入法從97%到98%準(zhǔn)確率的識別效果,提升的只是一個點,這背后發(fā)生了什么?”訊飛輸入法之父翟吉博表示,識別準(zhǔn)確率的提升有三個難點,一是使用場景多樣化,二是用戶習(xí)慣,三是中國漢字和文化的特殊性。針對這些難點,訊飛做了很多的努力,比如針對多樣化的場景,科大訊飛分別推出了長文本輸入、耳語輸入。針對用戶習(xí)慣和個性化,推出了個性化的訓(xùn)練模型,中英文混合輸入,針對23種方言也推出了懂你懂鄉(xiāng)音等。
翟吉博表示,語音輸入更精準(zhǔn)的方法離不開數(shù)據(jù)和算法。訊飛輸入法從人腦神經(jīng)科學(xué)入手對人類記憶進(jìn)行仿生,實現(xiàn)大量無監(jiān)督的數(shù)據(jù)去輔助有人工標(biāo)注的數(shù)據(jù)。受圖像領(lǐng)域CNN應(yīng)用的啟發(fā),科大訊飛獨家研發(fā)了深度全序列卷積神經(jīng)網(wǎng)絡(luò)(Deep Fully Convolutional Neural Network,DFCNN)語音識別框架,使用大量的卷積層直接將語譜圖作為輸入,相比傳統(tǒng)語音特征作為輸入,有效降低信息損失,非常出色地表達(dá)語音的長時相關(guān)性。同時,借鑒了圖像識別中效果最好的網(wǎng)絡(luò)配置,每個卷積層使用3×3的小卷積核訓(xùn)練更深的CNN模型,輸出單元直接與最終的識別結(jié)果(比如音節(jié)或漢字),從而使識別準(zhǔn)確率顯著提升。
本次見面會的另一個重要環(huán)節(jié)是啟動“方言發(fā)音人招募”公益行動。經(jīng)濟、文化活動的全球化以及區(qū)域經(jīng)濟的迅速發(fā)展,導(dǎo)致主流語言或通用語言更加強勢,同時也使得弱勢語言的交際功能不斷衰弱,甚至瀕臨消亡。目前世界上的語言有6000~10000種,據(jù)語言學(xué)家預(yù)測,大部分語言將于本世紀(jì)末消失。因此,瀕危語言保護(hù)(以下簡稱為“語保”)已經(jīng)成為了一項極重要而迫切的工作。
科大訊飛多語種高級研究員祖漪清在現(xiàn)場講述了方言勢微的現(xiàn)狀,她強調(diào),利用人工智能技術(shù)進(jìn)行瀕危語言、方言系統(tǒng)研究,是實現(xiàn)對一個語言的完整“復(fù)制”的重要方式。因此,本次媒體見面會上,科大訊飛正式啟動了“AI方言發(fā)音人招募”公益行動。