11月28日晚間消息,北京捷通華聲語音技術有限公司(簡稱捷通華聲”)今日在北京中關村舉行2012靈云發(fā)布會”。會上,捷通華聲發(fā)布了語音識別、語義理解和光學字符識別三項HCI技術,其中語音識別準確率已達到90%以上。
此前,捷通華聲一直以語音合成技術和手寫技術聞名于業(yè)界。而如今其語音合成技術依然保持領先,有超過50%的市占率。而手寫識別也占據(jù)了約35%的市場份額,且支持42種語言及手寫/疊寫識別,突破了用戶疊寫字跡無法識別的局限。
圖1:參會嘉賓通過手寫識別獲取簽到資料
除了已有HCI技術,捷通華聲在發(fā)布會上又發(fā)布了語音識別、語義理解和光學字符識別三項新技術。語音識別是指機器對人聲的識別,主要有所說即所點”、智能意圖控制”、語音輸入”三種應用場景。語義理解是機器對人類語言的理解,目前大多應用在智能問答場景中。光學字符識別,則是對印刷體文本資料中的文字和版面信息識別的過程。
在語音識別方面,捷通華聲針對三種不同場景做了專門優(yōu)化。所說即所點”是用人聲來代替點擊操作,解決了車載等無法便捷實現(xiàn)點擊的場景局限。目前這方面的識別正確率已超過95%,識別響應時間從原來的2.7秒降到了0.3秒。
而智能意圖控制”是人通過語音控制周圍環(huán)境,執(zhí)行一系列命令操作的過程,比如人與智能手機客戶端小唐龍的互動,成功實現(xiàn)了人機互動的便捷生活。第三大場景語音輸入”則是將人的聲音轉換成文字,目前捷通華聲這一技術在微博短信中的語音輸入正確率已超過90%。
圖2:靈云輸入法與小唐龍下載區(qū)
至今,靈云已擁有語音合成(TTS)、語音識別(ASR)、手寫識別(HWR)、光學字符識別(OCR)、人工智能(AI)等多項HCI核心技術。通過捷通華聲工程師團隊的努力,這些技術被成功放置到靈云平臺上,且其客戶端程序被大大縮減至3M。通過這3M大小的應用程序,客戶可以調用所有的靈云能力,從而為不同領域、行業(yè)企業(yè)提供了多種HCI解決方案,包括無紙化辦公方案、電子簽批方案、電子表單處理方案、語音技術方案、智能客服系統(tǒng)方案等。
除了支持多項HCI技術,靈云還可以掛接第三方的HCI能力,力求將多樣化的HCI技術加載到靈云平臺上,服務服務廣大的用戶。而云+端”的方式,使得靈云性能更優(yōu)化,響應速度更快,極大地方便了用戶的使用。而作為一個開放性平臺,靈云定制化的目標更加明確,滿足各種場景應用和需求。捷通華聲董事長張連毅表示,通過靈云以及各項HCI技術的不斷創(chuàng)新,捷通華聲希望能達成讓人與機器的交流像人與人一樣自然”的愿景。