返回列表

作者:巨人電商

為什么今日頭條們,總知道你喜歡看什么?

POST TIME:2021-08-20

現(xiàn)在有很多像今日頭條、輕芒閱讀這樣為你個性推薦資訊的 app,為什么同樣是個性推薦,它們卻有著不同的風格?今天分享的這篇文章,從 3 個方面為你簡單介紹,app 是如何為你推薦個性化資訊的。

不了解今日頭條是怎么運作的。不過因為在 Facebook 工作時負責新鮮事(Newsfeed)的個性化推薦與排序,我可以說說 Facebook 是怎么衡量自己推薦和排序的質(zhì)量的。

在具體執(zhí)行層面,主要有 3 個方式,分別是從機器學習模型、產(chǎn)品數(shù)據(jù),和用戶調(diào)查上來考核推薦引擎的效果。

1. 機器學習模型

推薦引擎的一大核心就是機器學習(不過現(xiàn)在都說人工智能了,但本質(zhì)上還是 supervised learning)。如果是想考察機器學習模型的質(zhì)量,學術(shù)上早就有一套成熟的實踐方法。

無論是模型的選擇(比如從 decision tree 替換成 neural network),還是迭代改進(比如模型訓練時多用一倍的數(shù)據(jù)),都可以使用基于 supervised learning 的衡量辦法。最常見的就是 AUC。

另一方面,對于某一類特定問題也有更細致的指標。比如說,可以通過模型特征的重要性(feature importance)知道新加的特征是不是有用。

2. 產(chǎn)品數(shù)據(jù)

再牛逼的機器學習模型都要經(jīng)歷產(chǎn)品數(shù)據(jù)的實際檢驗。這方面大家就都比較熟悉了,KPI 嘛。不過在 Facebook 特別是 Newsfeed 這種牽一發(fā)動全身的地方,我們會追蹤一系列數(shù)據(jù)來描述產(chǎn)品,而不是依賴某一個單一標準。

這些數(shù)據(jù)包括但不限于:

  • 日/月活躍用戶(DAU,MAU)
  • 用戶互動(點贊,評論,轉(zhuǎn)發(fā)等)
  • 用戶發(fā)帖量
  • 用戶停留時間和消耗的內(nèi)容量
  • 收入
  • 用戶互動率(比如看過的內(nèi)容中點贊/評論/長閱讀/收藏的比例)
  • 用戶舉報和屏蔽的數(shù)量

而且,在日常的快速迭代和 A/B 測試中,只有這些籠統(tǒng)的數(shù)據(jù)是不夠的,我們還需要些更細致的數(shù)據(jù)來真正理解我們的一些改動。比如說:

  • 內(nèi)容類型的分布是怎么變動的:用戶原創(chuàng)和轉(zhuǎn)發(fā)的比重分布,網(wǎng)頁鏈接和圖片視頻的比重分布,長視頻和短視頻的比重分布等等
  • 對公眾帳號是怎么影響的:什么樣的公眾號會受益于這次改動
  • 哪些第三方巨頭受到了影響,影響是否合理:比如我最早在 FB 實習時候的項目是整頓 SPAM 帳號。那個改動重創(chuàng)了 Zynga(因為 Zynga 嚴重依賴用戶騷擾它的好友來吸量),但大家覺得挺合理的,讓公關(guān)去溝通了下就發(fā)布了。

另外,為了防止短暫的眼球效應(yīng),對每一個重要的產(chǎn)品決策,我們都會維護一個長期的 backtest,用來評估這個決策的長久影響。比如說:

  • 對于在 feed 里面放廣告這個決定,我們會選擇一小部分用戶,對他們長期不顯示廣告,然后將他們的用戶活躍度同正常能看到廣告的用戶做對比,來衡量廣告的長期影響。
  • 類似的,對于 Newsfeed 是否排序,我們也有一個 holdout group,他們的 feed 是完全按時間排的。

這樣,對每一個可能會有爭議的決策,但未來的每個時間點,我們都能清楚地知道,我們是面臨著怎樣的取舍。有了這層保障,在決策的當下,我們也就敢于冒險些,走得更快些。

3. 用戶調(diào)查

大多數(shù)產(chǎn)品數(shù)據(jù)有其局限性,因為它們是顯性而被動的。比如說,你給用戶推送了一個博眼球的低俗內(nèi)容,用戶在當下可能是會去點開看的,所以數(shù)據(jù)上是好的。

但用戶可能心里對這個內(nèi)容的評價是低的,連帶著對作為內(nèi)容平臺的產(chǎn)品也會看輕,長此以往對產(chǎn)品的傷害是巨大的。

KPI 無法完全描述產(chǎn)品質(zhì)量,在硅谷互聯(lián)網(wǎng)圈是有共識的,但如何解決,每個公司答案都不同。

Twitter 系的 CEO 們,無論是 Jack Dorsey 還是 Evan Williams,都傾向于輕視 KPI 而依賴自己主觀想法來決策。

Google 和 Facebook,則采取了另一條路,他們決定把用戶評價納入到 KPI 中。

Google 在這方面的工作開始得比較早,因此公開的資料也比較多。概括地說,他們雇傭大量的普通人,以用戶的角度來對 Google 搜索排序的質(zhì)量和廣告推薦的質(zhì)量做主觀打分。

當打分的量大到一定程度,這些數(shù)據(jù)就足以成為一個穩(wěn)定有效的,且可持續(xù)追蹤并改進的 KPI 了。Facebook 雖然產(chǎn)品領(lǐng)域有所不同,但在個性化推薦上也采取了類似的方法。

回答的最后,還是想重申兩個方法論:

  • 永遠不能依靠單一一個 KPI 來評價產(chǎn)品上的工作。任何 KPI,任何產(chǎn)品,都不能。
  • 在明確 KPI 局限性的前提下,數(shù)字可以終結(jié)大多數(shù)無意義的扯皮,無論是技術(shù)上的,還是政治上的。

標簽:南充 肇慶 錫林郭勒盟 新鄉(xiāng) 中山 三亞 南昌 云浮