日前,知識(shí)社交平臺(tái)知乎舉辦的 「2017知乎·看山杯機(jī)器學(xué)習(xí)挑戰(zhàn)賽」順利結(jié)束。該角逐從 8 月 15 日正式開始,一共為期 3 個(gè)月,大賽以語義分析應(yīng)用為賽題,由創(chuàng)新工場(chǎng)人工智能工程院副院長(zhǎng)王詠剛老師,東南大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師漆桂林教授、清華大學(xué)計(jì)算機(jī)系副教授黃民烈、知乎高級(jí)副總裁李大海擔(dān)任導(dǎo)師。角逐一共吸引了 919 支來自全球各個(gè)院校以及工業(yè)界的算法挑戰(zhàn)隊(duì)伍參與。8 月 30 日,知乎正式公布角逐結(jié)果,,最終來自北京郵電大學(xué)模式識(shí)別實(shí)驗(yàn)室的 init 團(tuán)隊(duì)成功奪魁。
據(jù)悉,知乎將于 9 月 2 日在北京總部舉辦頒獎(jiǎng)禮,頒獎(jiǎng)禮現(xiàn)場(chǎng)還會(huì)舉辦「基于人工智能的自然語言處理」主題沙龍。沙龍上,角逐導(dǎo)師將和知乎合伙人、高級(jí)副總裁李大海一起分享、討論當(dāng)前人工智能及 NLP 領(lǐng)域的進(jìn)展。
參賽選手亮點(diǎn)頻頻 角逐結(jié)果超預(yù)期
本次角逐一共設(shè)置 3 個(gè)獎(jiǎng)項(xiàng),其中一等獎(jiǎng) 1 名,二等獎(jiǎng) 2 名,三等獎(jiǎng) 3 名。二等獎(jiǎng)獲得者為北京郵電大學(xué)模式識(shí)別實(shí)驗(yàn)室的 Koala 團(tuán)隊(duì)、中國科學(xué)院計(jì)算機(jī)算研究所網(wǎng)絡(luò)數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室的 YesOfCourse 團(tuán)隊(duì)。
三等獎(jiǎng)獲獎(jiǎng)團(tuán)隊(duì)則包孕:北京大學(xué)的 NLP Fakers 團(tuán)隊(duì),英國倫敦大學(xué)學(xué)院數(shù)據(jù)科學(xué)專業(yè)及武漢大學(xué)計(jì)算機(jī)學(xué)院的 Gower Street & 81 Road 團(tuán)隊(duì),北京郵電大學(xué)模式識(shí)別實(shí)驗(yàn)室的 ye 團(tuán)隊(duì),北方交通大學(xué)和西安交通大學(xué)的 Yin & Bird 團(tuán)隊(duì)。
這批算法江湖的語義分析高手不單可以獲得 80,000 元獎(jiǎng)金,還有機(jī)會(huì)親自參與和改進(jìn)知乎的內(nèi)容理解技術(shù),參與改善千萬知乎用戶的使用體驗(yàn) 。
為了驗(yàn)證結(jié)果,在獲獎(jiǎng)隊(duì)伍提交其方法說明及可復(fù)現(xiàn)的代碼和模型數(shù)據(jù)后,評(píng)審委員會(huì)逐一評(píng)審獲獎(jiǎng)隊(duì)伍的方法及代碼,而且隨機(jī)抽取其中一些隊(duì)伍提交的模型,使用別的一份驗(yàn)證數(shù)據(jù)集進(jìn)行結(jié)果驗(yàn)證。通過對(duì)獲獎(jiǎng)結(jié)果的復(fù)現(xiàn),評(píng)審委員會(huì)發(fā)現(xiàn),這些參賽隊(duì)伍提交的模型都表示出了非常強(qiáng)的泛化能力,在新的評(píng)審集上,模型的表示和原有的驗(yàn)證集基本一致。
關(guān)于這次大賽的整體評(píng)價(jià),評(píng)審委員會(huì)認(rèn)為,“選手在角逐中會(huì)把一些最前沿的技術(shù)運(yùn)用進(jìn)來,或在比較復(fù)雜的模型上調(diào)整效果,在數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型集成等環(huán)節(jié)都提出了新穎想法,非常有亮點(diǎn),好比 init 團(tuán)隊(duì)在數(shù)據(jù)增強(qiáng)方面進(jìn)行了富有創(chuàng)意的工作, Koala 團(tuán)隊(duì)在進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練的時(shí)候,使用了逐層 boosting 的方法來提升單個(gè)神經(jīng)網(wǎng)絡(luò)模型的表示。”
聚集自然語言處理喜好者 開放數(shù)據(jù)助力 AI 研究
知乎機(jī)器學(xué)習(xí)挑戰(zhàn)賽負(fù)責(zé)人張瑞曾體現(xiàn),舉辦角逐的主要目的,一方面,是為了吸引大家對(duì)于機(jī)器學(xué)習(xí),特別是自然語言理解(NLU)領(lǐng)域的興趣。并把機(jī)器學(xué)習(xí)喜好者聚集起來碰撞出一些思維的火花,同時(shí)參賽者也可以提升本身對(duì)自然語言處理領(lǐng)域的興趣和能力,相互雙贏。
另一方面,知乎也希望通過角逐開放部分?jǐn)?shù)據(jù),為 AI 在國內(nèi)的發(fā)展提供一些助力。比擬國外的ImageNet、Gigaword 等高質(zhì)量數(shù)據(jù)集,中文互聯(lián)網(wǎng)相關(guān)的高質(zhì)量數(shù)據(jù)集是相對(duì)缺乏的。而作為中文互聯(lián)網(wǎng)最大的知識(shí)社交平臺(tái),知乎累積了非常多的高質(zhì)量文本語料和其他各種各樣的數(shù)據(jù)。
知乎接下來還將在開放數(shù)據(jù)方面做更多努力,后期會(huì)在知乎「知識(shí)青年」和「Hacker’s Log」等專欄繼續(xù)發(fā)布賽題對(duì)應(yīng)的明文數(shù)據(jù),以及一些與知乎密切相關(guān)的數(shù)據(jù)集和機(jī)器學(xué)習(xí)任務(wù),例如內(nèi)容保舉、社交網(wǎng)絡(luò)鏈接預(yù)測(cè)等數(shù)據(jù)集。所有數(shù)據(jù)集會(huì)經(jīng)過嚴(yán)格脫敏和審核。
知乎機(jī)器學(xué)習(xí)愿景 滿足優(yōu)質(zhì)內(nèi)容獲取需求
作為一款用戶體驗(yàn)導(dǎo)向的產(chǎn)品,知乎上大量的人工智能,以及機(jī)器學(xué)習(xí)技術(shù),歸根結(jié)底是了為支撐用戶的使用體驗(yàn)。作為一家技術(shù)型互聯(lián)網(wǎng)公司,知乎對(duì)技術(shù)一直有著本身的想法和追求。知乎認(rèn)為,算法更高價(jià)值的地方,在于算法有機(jī)會(huì)了解人的潛在需求,打破信息獲取障礙,提升學(xué)習(xí)效率。目前,知乎機(jī)器學(xué)習(xí)團(tuán)隊(duì)已經(jīng)搭建了一套基礎(chǔ)生態(tài)體系,通過算法實(shí)現(xiàn)了用戶畫像、內(nèi)容分析、內(nèi)容個(gè)性化推送等,其效率比過去的人工運(yùn)營(yíng)方式提高了數(shù)十倍。
未來,知乎希望通過機(jī)器學(xué)習(xí)和算法滿足用戶的閱讀興趣,進(jìn)一步滿足關(guān)乎用戶自我提升的優(yōu)質(zhì)信息獲取需求。作為一個(gè)擁有 2300 萬日活用戶,每天有數(shù)以十萬計(jì)的高質(zhì)量的 UGC 內(nèi)容產(chǎn)生的網(wǎng)站。機(jī)器學(xué)習(xí)技術(shù)可以幫知乎做到的不只是「分發(fā)」內(nèi)容,還能更深入地「理解」內(nèi)容,從而幫手用戶更好地獲取有價(jià)值信息,帶來更好的內(nèi)容瀏覽體驗(yàn)。