搜狗語(yǔ)音交互技術(shù)中心總經(jīng)理王硯峰
搜狗推出語(yǔ)音轉(zhuǎn)寫文字工具“搜狗聽寫”,基于搜狗知音引擎的長(zhǎng)時(shí)語(yǔ)音聽寫技術(shù),可實(shí)現(xiàn)小時(shí)級(jí)文字轉(zhuǎn)寫功能,文本語(yǔ)音同時(shí)生存?,F(xiàn)已上線Android、iOS移動(dòng)端和Web版本,提供“聽寫”和“轉(zhuǎn)寫”兩種模式,辦事免費(fèi),主要面向記者、編纂、作家等文字工作者。
活動(dòng)現(xiàn)場(chǎng),搜狗方面體現(xiàn),后期將重點(diǎn)推進(jìn)人工智能技術(shù)的落地,并透露將在可穿戴、車載、客廳等場(chǎng)景領(lǐng)域自主研發(fā)硬件。搜狗方面透露,搜狗將于近期推出一款面向家庭和兒童的機(jī)器人產(chǎn)品。
據(jù)介紹,搜狗語(yǔ)音輸入法錯(cuò)誤率已經(jīng)下降到3.8%,語(yǔ)音識(shí)別辦事每日請(qǐng)求PV為2. 6 億次,每天產(chǎn)生語(yǔ)料 22 萬(wàn)小時(shí)。基于規(guī)模性的用戶語(yǔ)音數(shù)據(jù),聽寫產(chǎn)品將搜狗的語(yǔ)音識(shí)別、自然語(yǔ)言理解等技術(shù)進(jìn)一步延展落地。
傳統(tǒng)語(yǔ)音轉(zhuǎn)錄產(chǎn)品主要包孕兩大類,錄音類、語(yǔ)音輸入法+備忘錄。前者只能錄音不能實(shí)現(xiàn)文字轉(zhuǎn)寫,不能標(biāo)注重點(diǎn);后者無(wú)法長(zhǎng)時(shí)語(yǔ)音輸入,可能被打斷,無(wú)法生存原始錄音。搜狗認(rèn)為語(yǔ)音轉(zhuǎn)錄產(chǎn)品具備剛性需求?;谏鲜鐾袋c(diǎn),搜狗聽寫提供聽寫和轉(zhuǎn)寫模式,聽寫模式可邊收音邊展現(xiàn)識(shí)別結(jié)果,轉(zhuǎn)寫模型支持離線上傳文件給出識(shí)別結(jié)果。
在功能設(shè)計(jì)上,搜狗聽寫提供語(yǔ)音和文字無(wú)縫對(duì)齊,便利重點(diǎn)內(nèi)容定位;支持重點(diǎn)標(biāo)注,對(duì)應(yīng)的文本和語(yǔ)音可同時(shí)標(biāo)注。產(chǎn)品可在手機(jī)端邊聽邊寫,實(shí)現(xiàn)手機(jī)端和網(wǎng)頁(yè)端內(nèi)容同步。此外,搜狗聽寫還提供外接藍(lán)牙鍵,與手機(jī)配對(duì),便利用戶錄音過(guò)程中實(shí)時(shí)標(biāo)注。搜狗聽寫還可按照語(yǔ)義自動(dòng)添加標(biāo)點(diǎn),標(biāo)點(diǎn)正確率高達(dá)96%,標(biāo)點(diǎn)類型在滿足逗號(hào)、句號(hào)、問(wèn)號(hào)、嘆號(hào)的基礎(chǔ)上,還率先擴(kuò)充了書名號(hào)。
在應(yīng)用場(chǎng)景上,搜狗聽寫針對(duì)用戶的使用場(chǎng)景,如開會(huì),寫小說(shuō)等場(chǎng)景進(jìn)行優(yōu)化。識(shí)別效果較通用效果提升15%以上;還針對(duì)未便于大聲說(shuō)話而又有使用語(yǔ)音的場(chǎng)景,提供了耳語(yǔ)識(shí)別技術(shù),在人的說(shuō)話音量低至 30 分貝以下的情況下,依然可以準(zhǔn)確識(shí)別。
相較于此前的輸入法語(yǔ)音識(shí)別,搜狗聽寫的使用場(chǎng)景更加復(fù)雜,在算法模型層面,搜狗進(jìn)行了優(yōu)化。據(jù)介紹,聽寫模式采用業(yè)內(nèi)領(lǐng)先的端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)Deep LC-CLDNN+CTC技術(shù),轉(zhuǎn)寫模式使用了Deep CNN+CTC的方式,語(yǔ)言模型基于T級(jí)海量輸入法文本數(shù)據(jù)使用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,語(yǔ)音識(shí)別準(zhǔn)確率高達(dá)97%。
在語(yǔ)音文字轉(zhuǎn)寫工具領(lǐng)域,,科大訊飛已經(jīng)推出錄音寶、訊飛聽見等產(chǎn)品。當(dāng)談到搜狗聽寫的差異性,搜狗語(yǔ)音交互技術(shù)中心總經(jīng)理王硯峰認(rèn)為,搜狗聽寫的優(yōu)勢(shì)在于可支持長(zhǎng)時(shí)錄音,轉(zhuǎn)寫辦事免費(fèi)。在功能設(shè)計(jì)上,搜狗更看重垂直場(chǎng)景的體驗(yàn)提升,好比加入藍(lán)牙鍵,提供改寫、標(biāo)注、發(fā)摘要等在線編纂功能。(侯迪憬)