返回列表

作者:巨人電商

2張圖帶你看懂今日頭條推薦系統(tǒng)

POST TIME:2021-08-20

推薦系統(tǒng)的“前身”

2016年,騰訊以80億美元估值投資今日頭條,結(jié)果大家都知道,張一鳴拒絕了騰訊的投資,現(xiàn)在大家也知道,字節(jié)跳動估值750億美元,這一切,推薦系統(tǒng)功不可沒。

因為搜索引擎和推薦系統(tǒng)太相似,相對來說也更簡單(勿噴),所以我們先來了解一下搜索引擎。至于搜素引擎是不是推薦系統(tǒng)的前身,我很懶,沒有考察。

如上圖,搜索引擎分成為離線部分和在線部分,每一部分有不同的使命。

簡單來說,搜索引擎的離線部分,專注于內(nèi)容的搜集和處理。搜索引擎通過網(wǎng)絡爬蟲抓取網(wǎng)站上的原始內(nèi)容,并將內(nèi)容建立索引。這些內(nèi)容會根據(jù)搜索系統(tǒng)的不同要求建立不同的索引體系,比如新聞類型的內(nèi)容,會建立時效性的索引數(shù)據(jù)。

搜索引擎的在線部分,負責響應用戶的搜索請求,完成內(nèi)容的篩選和排序,并將最終結(jié)果返回給用戶。我們舉一個例子來說明這個流程:

用戶在搜索引擎輸入一個關(guān)鍵詞NBA,搜索引擎搜索會對關(guān)鍵詞進行分析、變換、擴充和糾錯等處理,比如發(fā)現(xiàn)美職籃與NBA是同義詞,就會將其擴充。接下來,搜索引擎會通過多種方式從不同索引數(shù)據(jù)獲得候選集,這個環(huán)節(jié)叫召回。得到候選集后,搜索引擎通過更精細的計算模型對每一篇候選內(nèi)容進行分值計算,對候選集的每一項進行排序。這個時候,還不能將結(jié)果展示給用戶,需要經(jīng)過規(guī)則干預這一過程。這個過程服務于特定的產(chǎn)品目的。假如有這樣一條“官方網(wǎng)站保護規(guī)則,確保所有品牌搜索詞都可以優(yōu)先返回官網(wǎng)”,則此時就會將官網(wǎng)插入并置頂,最后再將結(jié)果展示給用戶。此時,搜索引擎的工作還未結(jié)束。搜索引擎會根據(jù)用戶的點擊反饋去優(yōu)化排序模型。比如,大部分用戶都沒有點擊文章10,則文章10后續(xù)就不會獲得更靠前的展現(xiàn)位置。

對以上兩圖進行總結(jié)就是下圖,就是想讓你們看的第一張圖:

今日頭條的推薦系統(tǒng)

通過上“一”張圖,我們明白了搜索引擎的原理(無論怎樣我都會裝作你看懂了),而今日頭條的這張圖,就是比上圖上多了一筆,考慮到這兩張圖高度相似,我這么懶的人,當然是不會去畫的了,你們發(fā)揮想象吧。

其實,推薦系統(tǒng)也有離線部分和在線部分。上圖(那不是圖,是PNG)即是推薦系統(tǒng)的離線部分,與搜索引擎大同小異。

和搜索引擎一樣,推薦系統(tǒng)也需要獲取內(nèi)容。推薦系統(tǒng)通過數(shù)據(jù)庫導入、協(xié)議同步和用戶提交等方式獲取推薦內(nèi)容。區(qū)別于搜索引擎,推薦系統(tǒng)獲取內(nèi)容的方式較多,且內(nèi)容的結(jié)構(gòu)化程度要遠勝于搜索引擎爬蟲抓取的內(nèi)容。推薦系統(tǒng)也需要將待推薦的內(nèi)容進行索引化處理,這一點與搜索引擎較為相似。推薦系統(tǒng)的維度會更多。

接下來,就是推薦系統(tǒng)的在線部分了。天啊,看到上圖,發(fā)現(xiàn)推薦系統(tǒng)真的和搜索引擎太像了,就多了一筆。

搜索引擎的輸入為用戶的搜索關(guān)鍵詞,推薦系統(tǒng)同樣需要輸入,只是這個過程用戶沒有感知,對推薦系統(tǒng)來說,它的輸入為場景信息,比如時間、地點和設備等。搜索引擎獲得輸入后,會進行關(guān)鍵詞處理,對于推薦系統(tǒng)來說,會進行用戶畫像查詢。這個案例中,推薦系統(tǒng)了解到,該用戶在實體詞維度,對NBA感興趣,在分類維度,對體育和科技感興趣。查詢到用戶畫像后,推薦系統(tǒng)就進入召回環(huán)節(jié)。它通過多種方式,根據(jù)用戶畫像查詢結(jié)果“NBA、體育和科技”,從不同索引數(shù)據(jù)里獲得候選集合。在召回完成后,和搜索引擎一樣,推薦系統(tǒng)按照預定預估目標對候選集進行排序。同樣,推薦系統(tǒng)也需要經(jīng)過規(guī)則干預步驟后,才會將最終結(jié)果展示給用戶。對于最后一步,用戶的各種動作行為,在搜索引擎里,會持續(xù)優(yōu)化排序模型,在推薦系統(tǒng)里,還會持續(xù)改進自身的畫像。

對以上兩圖進行總結(jié)就是下圖,就是想讓你們看的第二張PNG(圖):

推薦系統(tǒng)的本質(zhì)

通過對搜索引擎和推薦系統(tǒng)的兩張圖,我們大致明白了推薦系統(tǒng)是怎么個一回事。實際上,推薦系統(tǒng)是一個策略行為。對于策略,他有四要素,分別是:

待解決問題輸入(影響解決方案的因素)計算邏輯(將輸入轉(zhuǎn)換成輸出的規(guī)則)輸出(具體的解決方案)

對于今日頭條來說:

它待解決的問題是“從海量的內(nèi)容中,找到用戶喜歡的內(nèi)容”;

他的輸入是“用戶畫像和內(nèi)容特征”;

計算邏輯:將這些內(nèi)容特征按一定規(guī)則轉(zhuǎn)化為喜歡度;

輸出:將內(nèi)容按喜歡度從高到低排序。

由于我推薦系統(tǒng)的課程還未結(jié)束,先不展開這部分內(nèi)容了。后面博客會對上文進行展開,有興趣的同學,歡迎關(guān)注。

說明:以上內(nèi)容來源于個人閱讀和付費課程的歸納整理。

作者:皮帶

來源:皮帶

標簽:云浮 肇慶 南充 三亞 中山 南昌 錫林郭勒盟 新鄉(xiāng)