POST TIME:2018-12-03 21:15
Netflix在互聯(lián)網(wǎng)時代的成功,是一件非常值得回味的事。
作為一家以租賃起家,以流媒體平臺這種不算很新銳的企業(yè)特征,獲得了世界科技領域的遍及認同,甚至能夠與巨頭一較高下。Netflix顯然不止是在內容和品牌宣傳上作對了一些事情。
好比說,有長期使用Netflix經驗的伴侶(雖然目前在國內有點難),必定會對Netflix的個性保舉系統(tǒng)留有深刻印象。事實上,Netflix在內容保舉上的技術實力與效率一直廣泛受到業(yè)界認同
按照Netflix提供的官方數(shù)據(jù),使用個性保舉系統(tǒng)之后,其平臺用戶的不雅觀看率提升了 3 到 4 倍,而基于個性保舉系統(tǒng)打開的視頻數(shù)量,是從最受歡迎列表打開數(shù)量的 4 倍。
在國內,“千人千面”“內容找人”近兩年也是很熱門的話題。但很少有人分析內容保舉系統(tǒng)的內部邏輯,以及更好的內容保舉系統(tǒng)需要哪些因素。
比來廣受期待的漫威劇《捍衛(wèi)者聯(lián)盟》在Netflix放出之后,Netflix官方展示了他們基于這部劇做的內容保舉嘗試與數(shù)據(jù)實驗。以此為契機,我們或許可以一窺“別人家的保舉引擎”。
懂算法的同時要懂內容《捍衛(wèi)者聯(lián)盟》之所以特別,原因在于它就像《復仇者聯(lián)盟》一樣(好多聯(lián)盟啊),是幾個各自有獨立劇集的超級英雄組合到一起的“混合劇”。
對于Netflix來說,這部劇的價值在于這四位英雄有各自的受眾群體(鐵拳應該沒有中國受眾吧),而組合起來的人設與故事是否能覆蓋各自人群之和,還是應該推向新的人群呢?
(四個獨立英雄受眾有差別的不雅觀影愛好和關鍵詞標記 )
針對這個問題,Netflix將《捍衛(wèi)者聯(lián)盟》當做了一塊試驗田,他們將密切關注這部劇的數(shù)據(jù)走向,而且對差別身份標識的用戶實行差別的保舉策略。測試結果將形成新的機制,用來確定如何向差別的興趣組提供“混搭劇”保舉,同時也可以按照反饋來確定以后是否要制作更多差別劇集人物的組合劇。
比擬于國內的主流內容保舉引擎(無論是信息、短視頻還是視頻)通常采取以用戶為中心,按照用戶瀏覽、保藏、付費等行為來建構個性化保舉體系,Netflix讓我們看到了另一種可能:以內容特征為中心,去分析差別內容可以保舉給誰,如何保舉,甚至是否要調整內容?!案畠热莸膫€性保舉”不但建立在對內容文本特征的駕馭上,更重要的是技術能力足夠支撐這種創(chuàng)造力。
不然從用戶、內容雙向互動來匹配保舉機制,將是一個工作量巨大且錯誤率高企的任務。那么問題來了,站在Netflix保舉系統(tǒng)背后的,究竟是一個什么樣的技術體系呢?
好戲的基礎,,是一個足夠大的舞臺簡單來描繪的話,Netflix個性內容保舉機制的特色,就是要在保證用戶使用流暢的前提下,盡心盡力的裝備更多、更復雜的算法組合。
具體的算法我們一會再聊。首先要弄清楚的問題是Netflix內容保舉系統(tǒng)的底層基礎是什么。
假設我們認為,更多的算法和技術,可以帶來更巧妙的運算和結果,而且彼此制約出趨向合理的結論。那么平臺的第一要務就是要保證運算能力可以負擔復雜的算法與數(shù)據(jù)挖掘技術運行,而且保證平臺可以敏捷輕松的加入后續(xù)越來越多的算法。
那么第一個問題就是運算能力的保證。我們知道,人工智能的多元算法要求的運算力特別高,傳統(tǒng)的CPU+辦事器模式在成本上很難滿足復雜的AI系統(tǒng)運行。
而Netflix是最先嘗試在AWS上使用GPU實現(xiàn)分布式神經網(wǎng)絡的企業(yè)之一。雖然今天這種組合正在逐漸成為標配,但在幾年前使用GPU代替大型集群的CPU作為平臺支撐是一個創(chuàng)舉。
這樣不但保證了計算力的不變,還為更多的人工智能投入平臺運用提供了契機。別的Netflix還率先把大量運算任務交給了云端,在AWS上進行分配式計算,確保了運算的高效率。
別的,我們可以注意到,Netflix在進行內容保舉運算的時候使用的是三種計算方式相結合:在線計算、離線計算和接近在線計算。
之所以要進行分工,是要保證運算復雜度和運算效率不變統(tǒng)一。其中在線計算用來響應必需即刻完成的交互行為,確保用戶指令得到實時響應。而離線計算因為沒有時間限制,可以在運算平臺上完成更復雜的算法運行和更大的數(shù)據(jù)量處理。這種運算的工作模式是系統(tǒng)從用戶處收集數(shù)據(jù),然后回到后端進行運算分析,再通過后期的交互表示在內容保舉上。