《長江七號》是我女兒非常喜歡的一部電影,記得當時帶她去看這部影片時她才4歲多,現(xiàn)在她6歲了,仍然還經(jīng)常提起這部片子以及充滿了靈性、智慧、童趣的“小七”。
在我們看來,“小七”就是一部智能小機器,可以說話,可以與人交流,當然,經(jīng)過電影作者的想象、加工,給它賦予人類的感情,所以也成就了“小七”的輝煌。
“小七”在捷通華聲董事長張連毅先生看來,只是人機交互技術HCI功能實現(xiàn)的一小步,張連毅認為:人與機器的溝通將越來越簡單,讓機器與人的交流像人與人一樣自然是他的理想。
近日,CTI論壇記者獲得與捷通華聲董事長張連毅先生交流的機會,將這位HCI技術應用的推動者在HCI領域的理念與夢想與大家分享。
圖:捷通華聲董事長張連毅先生在辦公室接受CTI論壇記者采訪
CTI論壇記者:捷通華聲于12月8日推出全球第一個全方位人機交互的感知云--靈云,這與以前捷通華聲經(jīng)常談到的智能人機交互技術HCI有哪些傳承與區(qū)別?
張連毅:捷通華聲公司多年來一直致力于智能人機交互技術的研究,也就是HCI。其實HCI技術投入大、見效慢,只有一些很大的企業(yè),像IBM、微軟、英特爾才能夠獨立投入,而捷通華聲是民營企業(yè),這么多年堅持下來其實是很不容易的。
靈云的推出,可以說是 “十年磨一劍”,早在1998年底,捷通華聲在公司剛創(chuàng)建時,推出新產(chǎn)品“錄易”,就具備了人機交互的基本雛形,具備聽、說等功能,遺憾的是當年的品牌知名度并沒有打響,原因有很多,一是當時的捷通華聲還只是一家剛剛誕生的嬰兒般的企業(yè),并沒有雄厚資金去做相應的推廣,而當時的漢王科技等企業(yè)推出的手寫板產(chǎn)品已經(jīng)熱銷,所以捷通華聲的“錄易”就被淹沒了。
但就現(xiàn)在來看,“錄易”都不是一款過時的產(chǎn)品,“錄易”后期轉(zhuǎn)換了一種方式,以OEM、ODM的方式繼續(xù)履行著他的使命。
我剛才說到靈云是 “十年磨一劍”,因為我們認為,無論是手寫錄入、語音錄入、還是掃描識別,都是一種錄入手段,人與機器的交互,是全方位、多手段的,無論用哪種形式,讓機器能夠說、能夠聽、能夠感知人的語言,這就是HCI的使命。而今天,捷通華聲經(jīng)過多年對HCI的研究:通過手寫,讓機器能認識人的書寫;通過語音合成,讓機器能象人一樣說話;通過語音識別,讓機器能聽懂;通過語音翻譯,讓機器能象人一樣思考。
這些功能以前捷通華聲,包括市場上其他的企業(yè)只能夠一項項的單獨實現(xiàn),靈云則通過相應的技術讓這些功能集中于一起,對功能加以整合,全方位提供給用戶多種人機交互的體驗。
CTI論壇記者:靈云可以用語音、手寫、拍照,甚至可使用腦波識別等智能手段來操作、感知手機、計算機等數(shù)字設備的網(wǎng)絡云服務,這是如何做到的呢?
張連毅:人機交互一直是人們所期待的,人類希望機器象人一樣做基本的思考,象人一樣更加協(xié)調(diào),所以,在技術形成上我們賦予機器“大腦”的功能。
捷通華聲依照多年來對自然語言的理解,引入“神經(jīng)元”概念,比如讓機器判斷語音、語氣、語境,象人一樣具備簡單的思考功能。
剛才我也提到過,人機交互的方式是多種多樣的,不應該有局限,應不拘一格,無論是語音、手寫、拍照、手勢,都是人與機器交互的方式,我們對這些交互方式在技術上加以整合、集結(jié),讓他們同時具備上述功能,而不是以前的某一種單一方式,可以說這是一種突破,工程師付出了很大的努力。
圖:捷通華聲董事長張連毅先生 CTI論壇記者:捷通華聲對靈云準備采取哪些推廣模式?合作伙伴可以做些什么?
張連毅:在回答這個問題之前,我想闡述一下我們的合作理念,這個理念前幾天我在中國手機產(chǎn)業(yè)大會上也提到過。舉個例子,比如喬布斯的蘋果公司,首先我本人非常佩服喬布斯,他為觸控技術乃至整個人類計算機和手機產(chǎn)業(yè)做出的貢獻無人能超越。但是我認為很少有開發(fā)者或者手機制造廠商能真正從產(chǎn)業(yè)、從蘋果的APPStore獲得利益,所以我支持Android,因為Android是開放,是分享,是每一個人都可以用的。
另外企業(yè)也要做好自己的定位,比如作為大學,它的定位就是培養(yǎng)人才。捷通以前是語音、手寫領域技術商,現(xiàn)在是HCI方案提供商。而人與機器的交互可以說是無所不在,捷通華聲作為HCI方案提供商,我們提供方案,培養(yǎng)開發(fā)者,讓成千上萬的開放者集結(jié)多種智慧,來促進HCI技術多種多樣的應用??傊?,捷通華聲將輔助所有的合作伙伴、支持各種合作伙伴將HCI引進到他們擅長的領域。
所以,捷通華聲今后的推廣也將以合作為主,開放、共享,與合作伙伴共同合作、共同分享。
CTI論壇記者:您怎么評估HCI市場規(guī)模及應用趨勢?
張連毅:我認為HCI只是一個時代的開始,前途不可限量,但不會象互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)有那么多的泡沫。并且我個人認為,對HCI整個產(chǎn)業(yè)并不適宜用一個具體的數(shù)字來評估其發(fā)展的規(guī)模。HCI與云計算技術的結(jié)合,則是宣告了人機交互時代的來臨。
同時,HCI也不會有什么突然的爆發(fā)式的增長,因為HCI技術是每天都在成長,探討研究機器應用HCI技術就象探討人自身一樣,本身有一個慢慢探索的過程。比如人類面臨的一些不治之癥,如癌癥,可能長久以來一直就伴隨著人類,但近代才開始認識到有這個疾病存在,到目前為止也還沒有克服這個疾病的良效藥,也就是說,我們?nèi)祟愡€遠沒有真正徹底地了解我們自己。所以說,探索HCI技術就象探索人自身一樣有個過程,至少要經(jīng)歷從理解----接受----推動----寬容----發(fā)展的階段。所以從這個角度上講,我們要以包容的態(tài)度來理解HCI在應用發(fā)展中產(chǎn)生的問題。
CTI論壇記者:捷通華聲成立于2000年10月,2001年推出中文語音合成技術,后續(xù)推出中文語音識別技術,可以說,這也折射了中國語音技術的發(fā)展歷史。那么,目前捷通華聲語音的應用領域有哪些?可以舉一些案例進行分享;
張連毅:語音應用領域應該從兩個方面來統(tǒng)計,一是受眾人群,從這個角度來講,語音應用其實是無處不在的,語音是服務的技術,尤其是語音合成技術在人群中受眾很高,但語音識別需要在特定的領域中保證識別率,比如銀行業(yè)務,肯定不會牽涉天氣預報的內(nèi)容,受眾相對語音合成會少一些。捷通華聲過去十年中,作為語音技術提供商,涵蓋了所有的產(chǎn)業(yè)、行業(yè)、包括個人用戶。比如呼叫中心、導航、教育、手機中的各種應用、桌面辦公應用等,有無數(shù)的人已經(jīng)享受到語音技術的服務。
另一種統(tǒng)計方法是銷售額,語音技術市場包括語音合成及語音識別,基本是五五分成的狀況,從受眾人群講,語音合成用戶高于語音識別用戶數(shù),但單價較語音識別低一些,所以從銷售額統(tǒng)計來看相差不大。
捷通華聲語音技術的企業(yè)終端用戶分布于銀行、交通等所有重要領域,如中國農(nóng)業(yè)銀行、中國銀行、中國建設銀行、交通銀行、中國高鐵、世博會都是我們的客戶或采用捷通的語音技術。
CTI論壇記者:目前國際國內(nèi)已經(jīng)有一些語音方面的廠商也有相關的語音部署,那么捷通華聲的語音技術專有技術還是引進技術?
張連毅:捷通華聲在創(chuàng)立之初就有自己的獨立技術,如語音合成技術,手寫識別技術,我們找到兩個在我國非常杰出的在語音領域研究多年的科學家作為公司創(chuàng)業(yè)的合作者,幫助指導我們研發(fā)。靈云中最核心的幾項技術均是捷通華聲自主知識產(chǎn)權(quán)的核心技術。當然,靈云離不開HCI同行的支持,因此我們也非常注意加強國內(nèi)、國際間的企業(yè)與研究單位的合作。
CTI論壇記者:您認為中國HCI競爭格局是怎樣的?
張連毅:捷通華聲在推出每一個產(chǎn)品技術時,都會問問它能給產(chǎn)業(yè)、給社會帶來什么?而不是去先炒概念,我們對待每一個產(chǎn)品都當成新生嬰兒一般,不過多宣傳自己,也從來不吃獨食,更不自稱是龍頭老大。靈云是國內(nèi)乃至國際上第一個感知云,也就是第一個HCI網(wǎng)絡云服務,目前只有合作伙伴,沒有競爭對手,但將來是一定會有的。
當然,在過去較長一段時間,捷通華聲在HCI其中一些技術的局部領域一直受到同行業(yè)競爭對手的打壓,包括現(xiàn)在也是,但經(jīng)過多次幾乎是惡性的競爭,我意識到:HCI要發(fā)展,捷通要發(fā)展,不是通過僅與其中一兩個領域中的競爭對手爭勝負,爭贏某一個單子決定的。要更多依靠大眾對HCI知識的了解,HCI技術要服務大眾,就要靠所有產(chǎn)業(yè)鏈的企業(yè)精誠合作,只要這樣HCI 產(chǎn)業(yè)才會真正發(fā)展。即使競爭也是良性競爭,不能失去產(chǎn)業(yè)發(fā)展的責任與越過商業(yè)規(guī)則的底線。
捷通華聲正是因為有了對HCI產(chǎn)業(yè)的全新理解,有了國內(nèi)所有的合作企業(yè)、用戶對我們多年的理解與支持,才有了靈云的誕生,因此我們也才敢說:靈云是大家的,靈云是中國的!
CTI論壇記者:非常感謝您接受我們的采訪,祝您工作愉快!也祝愿中國的HCI產(chǎn)業(yè)更加蓬勃發(fā)展!因為我們每一個人都身處其中!
張連毅簡介:
1989年獲得清華大學環(huán)境工程系學士學位。1992年,與清華大學吳佑壽、丁曉清教授合作,推進漢字印刷體識別系統(tǒng)(OCR)商品化進程。1992年底至1998年6月赴美學習、工作。1998年8月歸國創(chuàng)建北京捷通軟件技術有限公司,2000年與呂士楠、顧小鳳教授共同創(chuàng)建北京捷通華聲語音技術有限公司。
發(fā)展中,堅持“開發(fā)有價值的產(chǎn)品,培養(yǎng)有價值的人,創(chuàng)建有價值的企業(yè)”,專注發(fā)展中文語音合成技術,在中文語音技術領域與國內(nèi)外企業(yè)展開力量懸殊的激烈競爭中,最終捷通華聲不但贏得了技術、市場,也贏得了國際語音界的尊重。
捷通華聲取得立足中文語音技術市場之后,提出以“技術為核心,服務為己任,技術服務生活”的發(fā)展新思路,領導企業(yè)全面整和語音、手寫等智能人機交互技術(HCI)力量,2011年,在國際云服務領域推出首個感知云—靈云,帶領捷通華聲進入企業(yè)規(guī)模化發(fā)展的全新階段。
聲明:CTI論壇(CTiforum)版權(quán)作品,未經(jīng)CTiforum書面授權(quán),嚴禁轉(zhuǎn)載,違者將被追究法律責任。
CTI論壇報道