近日,全球最頂級(jí)大數(shù)據(jù)會(huì)議Strata Data Conference在京召開。Strata大會(huì)被《福布斯》雜志譽(yù)為“大數(shù)據(jù)運(yùn)動(dòng)的里程碑”,吸引了大數(shù)據(jù)、人工智能領(lǐng)域最具影響力的數(shù)據(jù)科學(xué)家與架構(gòu)師參會(huì)。第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)受邀出席,并以“人工智能工業(yè)應(yīng)用痛點(diǎn)及解決思路”為題,頒發(fā)主題演講。
陳雨強(qiáng)是世界級(jí)深度學(xué)習(xí)、遷移學(xué)習(xí)專家,曾在NIPS、AAAI、ACL、SIGKDD等頂會(huì)頒發(fā)論文,并獲APWeb2010 Best Paper Award,KDD Cup 2011名列第三,其學(xué)術(shù)工作被全球著名科技雜志MIT Technology Review報(bào)道。同時(shí),陳雨強(qiáng)也是AI工業(yè)應(yīng)用領(lǐng)軍人物,在百度鳳巢任職期間主持了世界首個(gè)商用的深度學(xué)習(xí)系統(tǒng)、在今日頭條期間主持了全新的信息流保舉與廣告系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn),目前擔(dān)任第四范式首席研究科學(xué)家,帶領(lǐng)團(tuán)隊(duì)研究、轉(zhuǎn)化最領(lǐng)先的機(jī)器學(xué)習(xí)技術(shù),著力打造人工智能平臺(tái)級(jí)產(chǎn)品”先知“。
以下內(nèi)容按照陳雨強(qiáng)主題演講編寫,略有刪減。
大家好,我是來自于第四范式的陳雨強(qiáng),目前主要負(fù)責(zé)人工智能算法研發(fā)及應(yīng)用的相關(guān)工作。非常高興與大家分享人工智能在工業(yè)界應(yīng)用的一些痛點(diǎn)、以及相應(yīng)的解決思路。
工業(yè)大數(shù)據(jù)需要高VC維
人工智能是一個(gè)非常炙手可熱的名詞,且已經(jīng)成功應(yīng)用在語音、圖像等諸多領(lǐng)域。但是,現(xiàn)在人工智能有沒有達(dá)到可以簡(jiǎn)單落地的狀態(tài)呢?工業(yè)界的人工智能需要什么技術(shù)呢?帶著這些問題開始我們的思考。
首先,我們先探討一下工業(yè)界人工智能需要一個(gè)什么樣的系統(tǒng)?人工智能的興起是由于數(shù)據(jù)量變大、性能提升以及并行計(jì)算技術(shù)發(fā)展共同產(chǎn)生的結(jié)果。所以,工業(yè)界的問題都是非常復(fù)雜的。因此,我們需要一個(gè)可擴(kuò)展系統(tǒng),不但在吞吐與計(jì)算能力上可擴(kuò)展,還需要隨著數(shù)據(jù)量與用戶的增多在智能水平上可擴(kuò)展。怎么實(shí)現(xiàn)一個(gè)可擴(kuò)展系統(tǒng)呢?其實(shí)很重要的一點(diǎn)是工業(yè)界需要高VC維的模型,去解決智能可擴(kuò)展性的問題。怎么獲得一個(gè)高VC維的模型呢?大家都知道,機(jī)器學(xué)習(xí)=數(shù)據(jù)+特征+模型。如果數(shù)據(jù)在給定的情況下,我們就需要在特征和模型兩個(gè)方面進(jìn)行優(yōu)化。
特征共分兩種,一種叫宏不雅觀特征,比喻說年齡、收入,,或是買過多少本書,看過多少部電影。別的一種是微不雅觀特征,指的是相比細(xì)粒度的特征,你具體看過哪幾本書,或者具體看過哪幾部電影。每一部電影,每一本書,每一個(gè)人,都是差別的特征。書有幾百萬本,電影有幾百萬部,所以這樣的特征量非常大。
模型可分為兩類,一個(gè)是簡(jiǎn)單模型,好比說線性模型。還有一種是復(fù)雜模型,好比非線性模型。
這樣就把人工智能分為了四個(gè)象限。如上圖,左下角是第一象限,使用宏不雅觀特征簡(jiǎn)單模型解決問題。這種模型在工業(yè)界應(yīng)用非常少,因?yàn)樗卣鲾?shù)少,模型又簡(jiǎn)單,VC維就是低的,不能解決非常復(fù)雜的問題。右下角的第二象限是簡(jiǎn)單模型加上微不雅觀特征,最有名的就是大家熟知的谷歌Adwords,用線性模型加上千億特征做出了世界頂尖的廣告點(diǎn)擊率預(yù)估系統(tǒng)。左上角的第三象限是復(fù)雜模型加宏不雅觀特征,也有諸多知名公司做出了非常好的效果,例如Bing廣告和Yahoo,經(jīng)典的COEC+復(fù)雜模型在這個(gè)象限內(nèi)是一個(gè)慣用手段。最后是第四象限,利用復(fù)雜模型加上微不雅觀特征,由于模型空間太大,如何計(jì)算以及解決過擬合都是研究的熱點(diǎn)。
剛才說沿著模型和特征兩條路走,那如何沿著模型做更高維度的機(jī)器學(xué)習(xí)呢?研究模型主要是在學(xué)術(shù)界,大部分的工作是來自于ICML、NIPS、ICLR這樣的會(huì)議,非線性有三把寶劍別離是Kernel、Boosting、Neural Network。Kernel在十年前非?;?,給當(dāng)時(shí)風(fēng)靡世界的算法SVM提供了非線性能力。Boosting中應(yīng)用最廣泛的當(dāng)屬GBDT,很多問題都能被很好地解決。Neural Network在很多領(lǐng)域也有非常成功的應(yīng)用。工業(yè)界優(yōu)化模型的方法總結(jié)起來有以下幾點(diǎn)。首先,基于過去的數(shù)據(jù)進(jìn)行思考得到一個(gè)假設(shè),然后將假設(shè)的數(shù)學(xué)建模抽象成參數(shù)加入,用數(shù)據(jù)去擬合新加入的參數(shù),最后用另一部分?jǐn)?shù)據(jù)驗(yàn)證模型的準(zhǔn)確性。這里舉一個(gè)開普勒沿模型這條路發(fā)現(xiàn)開普勒三定律的例子。在中世紀(jì)的時(shí)候,第谷把本身的頭綁在望遠(yuǎn)鏡上堅(jiān)持不雅觀察了30年夜空,將各個(gè)行星的運(yùn)動(dòng)軌跡都記錄下來?;谶@些數(shù)據(jù),開普勒不停的進(jìn)行假設(shè),最后假設(shè)行星的運(yùn)動(dòng)軌道是橢圓的,用橢圓的方程去擬合他的數(shù)據(jù),發(fā)現(xiàn)擬合的非常好,便得到了一個(gè)新的模型:開普勒第必然律。這就是一個(gè)典型的沿著模型走的思路,通過不雅觀測(cè)數(shù)據(jù),科學(xué)家獲得一個(gè)假設(shè),這個(gè)假設(shè)就是一個(gè)模型,然后用數(shù)據(jù)擬合這個(gè)模型的參數(shù),最終在新的數(shù)據(jù)上驗(yàn)證模型是否正確,這是沿著模型走的一條路。