萬物互聯(lián)時代,人與機器的交互方式已經(jīng)不再是鼠標(biāo)鍵盤所能勝任得了的。而語音作為最自然的交互工具,目前被廣泛認(rèn)定為智能家居乃至物聯(lián)網(wǎng)的入口。既然是入口,覬覦者自然也少不到哪里去,與國際上知名的谷歌、蘋果、亞馬遜,以及國內(nèi)的百度、搜狗、科大訊飛等企業(yè)相比,云知聲這家語音識別企業(yè)的量級顯然并不大。
面對這群雄爭霸的局面,云知聲IoT副總裁陳吉勝在CES Asia 2017展會的現(xiàn)場告訴動點科技,云知聲的優(yōu)勢在于技術(shù)、產(chǎn)品設(shè)計、產(chǎn)品落地的三位一體。而其中,將技術(shù)落地到用戶愿意購買的產(chǎn)品是關(guān)鍵。
在加入云知聲之前,陳吉勝與云知聲創(chuàng)始人黃偉都是摩托羅拉的老同事,當(dāng)時便已經(jīng)開始研究語音識別、語音合成以及圖像識別等新型人機自然交互方案,黃偉當(dāng)時負(fù)責(zé)算法的研發(fā),而陳吉勝負(fù)責(zé)算法的工程落地。之后陳吉勝又到了埃森哲任通信及高科技事業(yè)部經(jīng)理,為國內(nèi)華為等電信廠商提供圖像處理方面的一些解決方案。再之后他還去了像索尼愛立信這樣的手機公司。直到2015年6月陳吉勝加入云知聲,負(fù)責(zé)云知聲的技術(shù)落地與產(chǎn)品化。
好算法并不是會看論文就能得到的
人工智能大火,相關(guān)創(chuàng)業(yè)企業(yè)也越來越多,而這些企業(yè)所采用的技術(shù)在本質(zhì)上基本都是深度學(xué)習(xí)。然而,有人卻認(rèn)為人工智能時代算法并不重要,因為業(yè)界一旦有好的算法出現(xiàn),很快就能出現(xiàn)在學(xué)術(shù)界的論文里,企業(yè)只要會看這些大多來自國外的論文,便能得到這些最先進(jìn)的算法。
對此,陳吉勝認(rèn)為這個說法有待商榷。“會看論文并將它實現(xiàn)只是最基本的要求,這是在PC上實現(xiàn)的,但在PC上能實現(xiàn)與在設(shè)備上實現(xiàn)卻是兩個不同的概念,比如在手機上也能實現(xiàn)PC上的算法,但功耗呢?因為手機不像PC是連接電源的,所以算法要做進(jìn)一步的優(yōu)化,這只是一個簡單的例子,主要是想說明,看懂論文、輸出算法只是入門,離真正做出消費者愿意購買的產(chǎn)品,這只是萬里長城第一步,人才并不那么好找。”
“其實算法上的核心壁壘還是挺高的。”陳吉勝表示,在算法方面云知聲CTO梁家恩專門帶領(lǐng)著一個博士碩士比例“相當(dāng)高”的算法團(tuán)隊專門負(fù)責(zé),“這是我們的核心競爭力之一。”
算法只是一方面,產(chǎn)品如何落地更關(guān)鍵
“不過,光有技術(shù)也是不行的,你還要將技術(shù)做成可落地可商業(yè)化的產(chǎn)品。這一塊需要有豐富的工程經(jīng)驗,因此我們還組建了一個研發(fā)團(tuán)隊和一個實施落地的團(tuán)隊。”陳吉勝表示他們最擅長的便是后兩者,即產(chǎn)品研發(fā)和落地。“雖然后面兩個團(tuán)隊工程師相對于核心算法團(tuán)隊更好找,但想要將產(chǎn)品做得非常好,其實門檻也非常高。你需要找到既要懂工程又要懂算法還要懂產(chǎn)品的人才。這便是我們的另一個核心競爭力。”
“我們看見有很多公司,他雖然有很好的技術(shù),但卻一直沒有辦法實用化和產(chǎn)品化。”陳吉勝認(rèn)為其主要問題就出在缺乏好的產(chǎn)品研發(fā)和落地實施團(tuán)隊上。
為了說明這一點,陳吉勝還舉例認(rèn)為如今在語音識別領(lǐng)域,備受追捧的多麥克風(fēng)陣列方案其實就沒有考慮好技術(shù)如何落地。“現(xiàn)在都在說多麥克風(fēng)陣列效果好,而且是麥克風(fēng)越多效果越好,在理論上這的確是對的。但是難道就不能換個思路,以更少的麥克風(fēng)實現(xiàn)多麥克風(fēng)的效果?多一個麥克就意味著多一些成本,而且多麥克與少麥克在使用一段時間后哪個會更容易出問題呢?顯然是多麥克風(fēng)方案,這是個概率問題,且意味著更高的維修成本。”
陳吉勝還表示,云知聲在美的、格力的智能家居方案中就為了便于制造落地采用了最簡單的兩麥克風(fēng)方案,“難道是說我們做不了4個、6+1個甚至更多的麥克嗎?試想在設(shè)備上打兩個洞與打4個甚至更多個洞,哪個更簡單?而且要使兩個洞都保持在一個軸心上,是完全不用操心的——兩點確定一條直線。”
不僅如此,陳吉勝還認(rèn)為開發(fā)出一個好的算法只是萬里長城的第一步,而后面技術(shù)落地方面還有千萬步要走。具體而言,陳吉勝認(rèn)為技術(shù)落地至少還有以下這些坑需要注意:
1、交互設(shè)計。“就拿語音識別舉例,企業(yè)說自己產(chǎn)品的識別率可達(dá)95%,但用戶是不會知道這個數(shù)字的,他只會在使用過程中不斷感知到產(chǎn)品的識別到底好不好,而感知就是交互設(shè)計,這第一件事情就能難,怎么讓用戶愿意來使用這個產(chǎn)品。比如人跟一個智能音響的交流,就必須要非常符合人的使用習(xí)慣。而一個產(chǎn)品要做到符合人的使用習(xí)慣,這對設(shè)計的要求就非常之高。絕大部分產(chǎn)品都不符合人的使用習(xí)慣,否者也就不會只有一家蘋果了。”
2、要將產(chǎn)品做穩(wěn)定。從一個demo到用戶可以長時間使用而不出問題的產(chǎn)品,這是非常關(guān)鍵也是比較難的。
3、降低成本。你要將成本不斷地往下降,而且性能還不能有什么損失,這也非??简灩こ虉F(tuán)隊。
“這些步驟聽起來很枯燥,大家認(rèn)為其理所當(dāng)然要做好,但要將其變?yōu)楝F(xiàn)實,這些步驟你就必須要一步步地走過去。”陳吉勝如此表示。
算法、設(shè)計、工程的三位一體化
此外,陳吉勝認(rèn)為在人工智能或者說是語音識別領(lǐng)域,各大公司按技術(shù)先進(jìn)與否其實可以分成幾個檔次,一些公司可能會在稍微高一點的檔次上面,而另一些公司則處于相對低一點的檔次上。“目前人工智能領(lǐng)域主要運用的深度學(xué)習(xí)就像是一種兵法,大家得到的兵法都一樣,但更關(guān)鍵的其實在于如何運用這些兵法。”
“做得好就能更快落地,更快落地就能得到這個場景下更有價值的數(shù)據(jù),而更好的數(shù)據(jù)又能使產(chǎn)品更加地完善。這是一個正向循環(huán)的過程。”陳吉勝表示云知聲便做到了算法、產(chǎn)品設(shè)計、工程落地的三位一體化:
對于甲方客戶而言,他們開始可能會有多種方案進(jìn)行嘗試,但在最后,他們會尋找一個最可行的方案。陳吉勝認(rèn)為云知聲很有機會最后中選這個合作方的。“我們信心的最終來源就在于算法技術(shù)、工程能力、設(shè)計能力的三位一體化,這是根本原因。而表現(xiàn)上則可能是我們得到了很多大客戶認(rèn)可,并經(jīng)歷了非常嚴(yán)密的測試。”據(jù)了解,云知聲目前的合作伙伴已超過2萬家,覆蓋車載、家居、醫(yī)療等領(lǐng)域。
另外,巧婦難為無米之炊,在人工智能領(lǐng)域,數(shù)據(jù)一直都是至關(guān)重要的。像蘋果Siri、搜狗輸入法等等依靠硬件或軟件的巨大市場占有率,似乎在數(shù)據(jù)收集方面有著先天的優(yōu)勢。對此,陳吉勝強調(diào),“在很多實際公開場合下,其實并沒有太多人愿意用語音。而我們的語音數(shù)據(jù)更多來源于特定場景,比如車?yán)锖图揖永锩娴人矫墉h(huán)境,用戶愿意放開嗓子說,而且很多時候不用反而還不方便。所以我們得到的是一些在垂直領(lǐng)域內(nèi)非常有價值的數(shù)據(jù)。”陳吉勝說到。
值得一提的是,面對搜狗、科大訊飛、蘋果、谷歌等競爭對手,陳吉勝認(rèn)為分級并不意味著第一檔以外的企業(yè)就完全沒有機會了,“如果你認(rèn)為只有最好的技術(shù)才有人買,那不就意味著這些方案的價格要高到天上去了嗎?市面上有吃十塊錢雞腿的,也有吃5塊錢雞腿的。”陳吉勝表示。
打造“云端芯”生態(tài)閉環(huán)
據(jù)了解,為了加速語音識別技術(shù)的落地,云知聲打造了一個“云端芯”的一體化的解決方案,主要包括AI芯、AIUI、AI Service。
“AI芯是一種專門的芯片,用來跑離線的智能。而芯片最終還是要運用到終端設(shè)備上的,因此需要與人有一定的交互,這就是說需要AIUI,而交互有時候也是需要有云端支持的,這就是AI Service。”陳吉勝表示,“芯片有非常多種,CPU用來做通用處理,GPU用來做圖像方面的專用處理,而我們的芯片就用來做聲音方面的專用處理。”
另外,陳吉勝表示做芯片是一件高風(fēng)險的事,而之所以一定要做AI芯片,其實也是為了技術(shù)能以更低的成本更快地落地。“并不是說通用芯片不夠用,而是說通用芯片不合適。通用芯片的計算能力對于語音處理而言已經(jīng)足夠用了,但犯不著。比如,你花大價錢買了一個大房子,卻只是用來晚上睡覺,太浪費了。”
云知聲的AI芯片(Uni One)目前還在研發(fā)中,將內(nèi)置DNN處理單元,兼容多麥克風(fēng)、多操作系統(tǒng)。未來,AI芯將以模組的形式提供給客戶,客戶有了模組就意味著有了一整套云端芯的服務(wù)。
值得一提的是,就在不久前,云知聲又發(fā)布了一款名叫Pandora的語音中控方案,將遠(yuǎn)場語音識別、語義理解等復(fù)雜的AI技術(shù)元素整合為一個整體方案。基于“Pandora”方案打造一款專屬語音中控產(chǎn)品的研發(fā)周期可以控制在6個月,大大降低了產(chǎn)品化難度與風(fēng)險。
據(jù)了解,云知聲成立于2012年6月29日,總部位于北京,在上海、深圳設(shè)有分公司,目前員工超過200人。其最新透露的融資消息是2015年底已經(jīng)完成數(shù)千萬美金的B+輪融資。