最近,畢馬威會計事務(wù)所在一份報告中預(yù)測:到2030年,銀行的許多服務(wù)性工作崗位將消失,取而代之的是類似蘋果公司Siri的智能語音系統(tǒng)。不管這一預(yù)測是否準(zhǔn)確,智能語音技術(shù)進入我們的生活,已是事實。它在哪些領(lǐng)域能夠取代人的工作?其應(yīng)用前景如何?在發(fā)展過程中,還存在什么技術(shù)瓶頸?記者采訪了上海交通大學(xué)和科大訊飛的專家。
同聲傳譯將由機器來做
在近日舉行的錘子手機發(fā)布會上,訊飛輸入法有一段驚艷表現(xiàn):在羅永浩講完一大段不太標(biāo)準(zhǔn)的普通話后,這款軟件幾乎一字不差地記錄下來,標(biāo)點符號也基本正確。談及準(zhǔn)確率高的原因,科大訊飛上海分公司總經(jīng)理程蘇表示,訊飛輸入法具有語音識別和語義識別功能,不但能把普通話、方言、外語的語音準(zhǔn)確記錄下來,還能通過語義識別技術(shù)進行“句讀”,較為準(zhǔn)確地使用標(biāo)點符號。
與手機語音輸入相比,會場語音記錄的難度更大。因為在會場上有許多噪音,需要通過加混響、去混響等技術(shù)降低噪音,辨識出演講者的語音,再把這些語音轉(zhuǎn)換成文字。目前,國內(nèi)這種產(chǎn)品已經(jīng)成熟,能取代速記員。“按照‘每個字記錄得是否準(zhǔn)確’這個標(biāo)準(zhǔn),速記員的準(zhǔn)確率通常不超過80%,而訊飛的準(zhǔn)確率達到95%。”程蘇說。
他還透露,今年底,訊飛將發(fā)布一款能替代同聲傳譯的產(chǎn)品。“屆時,會場上將有兩塊屏幕,一塊顯示中文,另一塊顯示英文,讓大家對機器同傳的準(zhǔn)確率一目了然。”據(jù)介紹,要實現(xiàn)機器同傳,除了語音識別、語義識別技術(shù)外,還需機器翻譯、語音合成兩種技術(shù)。在專業(yè)性不強的會議上,機器同傳已能取代人工,節(jié)省許多會務(wù)費用。而在專業(yè)會議上,這種系統(tǒng)需要前期接受大數(shù)據(jù)訓(xùn)練,標(biāo)注出專業(yè)術(shù)語,這樣在現(xiàn)場就能應(yīng)付自如了。
據(jù)介紹,語音識別結(jié)合機器翻譯的實用性很強。通過一些手機軟件,用戶能將多種外語以及我國少數(shù)民族語言的語音譯成漢語,在一些交流場合,不再需要翻譯人員的幫助。
科大訊飛工作人員在展示一款語音產(chǎn)品。來源:新華社
從“感知”向“認(rèn)知”邁進
話務(wù)員、窗口服務(wù)員的工作也正在被智能語音系統(tǒng)取代。例如,撥打中國平安服務(wù)熱線“95511”后,用戶會聽到語音提示,讓他說出自己要辦理的業(yè)務(wù),說出后直接跳轉(zhuǎn)到相應(yīng)服務(wù),不再需要按鍵。又如,中國移動的一些營業(yè)廳已引入語音交互機器人,讓它們?yōu)橛脩艮k理各種業(yè)務(wù)。
盡管如此,上海交通大學(xué)計算機系教授、思必馳聯(lián)合創(chuàng)始人俞凱表示,智能語音系統(tǒng)目前還只能取代部分語音交互服務(wù)崗位。其原因,是現(xiàn)實交流場景中,人們聽到的大多是“非配合式語音”——表達得并不清晰,講述的是復(fù)雜問題,常常需要多次交互,才能理解對方的意思。在這種場景下,目前的智能語音系統(tǒng)遠沒有達到應(yīng)付自如的程度。為此,這一領(lǐng)域的科研人員正在從“感知”向“認(rèn)知”階段邁進,即在基本解決了語音識別問題后,著力增強這種系統(tǒng)的智能,使它們能更好地理解人類的自然語言。
蘋果公司的作為,就反映了這一趨勢。去年,該公司收購了英國公司VocalIQ,希望提高語音助手Siri的智能水平。在劍橋大學(xué)做科研時,俞凱參與創(chuàng)辦了VocalIQ。這家公司開發(fā)的自然語言數(shù)據(jù)庫能存儲、學(xué)習(xí)用戶的語音信息,實現(xiàn)對用戶指令的準(zhǔn)確識別,并給出相應(yīng)的回復(fù)。“蘋果手機剛推出Siri那陣子,很多人喜歡和Siri開玩笑,因為它時常答非所問。”俞凱說,只有借助更先進的語言認(rèn)知系統(tǒng),Siri才會變得更有用。
蘋果手機Siri的智能有望升級。來源:環(huán)球網(wǎng)
物聯(lián)網(wǎng)時代,語音是剛需
隨著智能語音系統(tǒng)的認(rèn)知能力越來越強,它的用途越來越廣。另一方面,隨著物聯(lián)網(wǎng)時代的到來,智能語音交互將逐步成為人們生活中的“剛需”。俞凱分析說,我們已經(jīng)歷兩個互聯(lián)網(wǎng)時代——PC(個人電腦)互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng),在第一個時代,我們用鍵盤、鼠標(biāo)輸入信息;在第二個時代,通過手指觸摸、虛擬鍵盤輸入信息。由此可見,語音輸入不是“剛需”,盡管一些智能語音軟件的準(zhǔn)確率很高,但用戶比例還是比較低的。然而,人類即將迎來硬件物聯(lián)網(wǎng)時代。在這個時代,許多智能硬件沒有屏幕,即便有,在一些場景中也會離用戶比較遠,語音交互就會成為最便捷的操控方式。
為了滿足這一未來需求,國內(nèi)外很多企業(yè)正在垂直領(lǐng)域發(fā)力,開發(fā)具有更多智能功能的語音產(chǎn)品??拼笥嶏w、思必馳開發(fā)的車載系統(tǒng),就是一個典型的垂直領(lǐng)域。在汽車?yán)?,駕駛員無法用手操作設(shè)備,語音操控的需求很大。據(jù)介紹,思必馳去年推出了可糾正、可打斷的交互系統(tǒng),用戶能隨時打斷語音助手、糾正自己的錯誤。如在車上撥打電話時,用戶說出號碼后,語音助手重復(fù)這個號碼時,用戶可以打斷它并進行修正(如說“不是135,是136”),而系統(tǒng)能理解這句話的意思。“我們希望在車載通話、聽音樂等垂直領(lǐng)域不斷取得突破,同時通過高??蒲?,提高系統(tǒng)在開放領(lǐng)域的語言認(rèn)知水平,迎接物聯(lián)網(wǎng)時代的到來。”俞凱說。