POST TIME:2018-12-03 21:32
在信息量爆炸的今天,由于范式的轉(zhuǎn)移,傳統(tǒng)的內(nèi)容和渠道已經(jīng)不再是稀缺資源;在今天,將信息和內(nèi)容更好更精準得呈現(xiàn)在用戶面前,才是全方面提高效率的方式,真正的稀缺資源釀成了「推」和「拉」。而在這一切的背后,保舉算法的作用都功不成沒。
保舉算法簡介目前的保舉算法一般分為四大類:
協(xié)同過濾保舉算法基于內(nèi)容的保舉算法混合保舉算法流行度保舉算法協(xié)同過濾的保舉算法協(xié)同過濾保舉算法應該算是一種用的最多的保舉算法,它是通過用戶的歷史數(shù)據(jù)來構建“用戶相似矩陣”和“產(chǎn)品相似矩陣”來對用戶進行相關item的保舉,以達到精準滿足用戶愛好的目的。好比亞馬遜等電商網(wǎng)站上的“買過XXX的人也買了XXX”就是一種協(xié)同過濾算法的應用。
基于內(nèi)容的保舉算法基于內(nèi)容的保舉算法,是將item的名稱、簡介等進行分詞處理后,提取出TF-IDF值較大的詞作為特征詞,在此基礎上構建item相關的特征向量,再按照余弦相似度來計算相關性,構建相似度矩陣。
混合保舉算法混合保舉算法很好理解,就是將其他算法保舉的結果賦予差別的權重,然后將最后的綜合結果進行保舉的方法。
舉例來說,好比上述已經(jīng)提到了三種方式,協(xié)同過濾算法中的基于用戶和基于item的協(xié)同過濾保舉,和基于內(nèi)容的保舉算法;而混合保舉算法中是將這三種保舉結果賦予差別的權重,如:基于用戶的協(xié)同過濾的權重為40%,基于item的協(xié)同過濾的權重為30%,基于內(nèi)容的過濾技術的權重為30%,然后綜合計算得到最終的保舉結果。
流行度保舉算法這個很基礎,看名字就知道了。這種方法是對item使用某種形式的流行度度量,例如最多的下載次數(shù)或購買量,然后向新用戶保舉這些受歡迎的item。就和我們平時經(jīng)??吹降臒衢T商品、熱門保舉類似。
淺析保舉算法在實際中的應用了解了大概原理后,就可以來看看在實際場景中,保舉算法都是怎么使用的吧。(事先聲明,這只是我看了相關東西再結合本身理解進去推測的,如果有說錯的地方請各位千萬放下手中的刀……)
好,下面開始,先說說協(xié)同過濾算法在實際中的應用。
協(xié)同過濾算法協(xié)同過濾算法一般是怎么做的呢?我們先來看看在圖書保舉中的做法:
協(xié)同過濾(CF)大致可分為兩類:一類是基于鄰域的保舉、一類是基于模型的保舉;鄰域方法是使用用戶對已有item的喜愛程度來推測用戶對新item的喜愛程度。與之相反,基于模型的方法是使用歷史行為數(shù)據(jù),基于學習出的預測模型,預測對新項的喜愛程度。通常的方式是使用機器學習算法,找出用戶與項的彼此作用模型,從而找出數(shù)據(jù)中的特定模式。(由于基于模型的方法我也不太理解,暫時不展開說明,感興趣的可以查閱相關資料)
【基于鄰域的保舉】–便是構建用戶相似矩陣和產(chǎn)品相似矩陣
假設用戶表示出了對一些圖片的喜歡情況并進行了相應的評分,情況如下:
差別圖書代表差別維度,評分則代表了特征向量在該維度上的投影長度,按照用戶對差別圖書的喜愛程度建立用戶的特征向量,,然后按照余弦相似度可以判斷用戶之間的相似性。按照相似性可以建立用戶相似矩陣:
很顯然,通過按照用戶對歷史圖書的評分情況,可以得到用戶對其的喜戀愛況,在此基礎上構建出用戶特征向量,可以必然程度上判斷兩個用戶在圖書品味上的相似程度,進而我們可以認為,若A和B比較相似,可以認為A喜歡的書B也喜歡。
在給A用戶進行圖書保舉時,找到與其相似度較高的其他用戶,然后除去A用戶已看過的圖書,結合相似用戶對某本圖書的喜愛程度與該用戶與A用戶的相似度進行加權,得到的保舉指數(shù)越高的圖書優(yōu)先進行保舉。
這應該也是豆瓣等圖書社區(qū)上使用的保舉算法之一,利用用戶之間的相似度來進行保舉。當然,電影保舉也同理。
同理,反過來我們可以根據(jù)相似的方位,以用戶為維度來構建item的特征向量。?當我們需要判斷兩本書是否相似時,就去看對這兩本書進行過評價的用戶構成是否相似,便是使用評價過一本書的用戶向量(或數(shù)組)體現(xiàn)這本圖書;也就是說,如果有兩本書的評價中,用戶重合度較高,即可認為該兩本書相似度較高。其實借用的還是用戶相似的基礎。(《口語大數(shù)據(jù)與機器學習》中也提到過相似的保舉算法,感興趣的同學可以找來看一下)。
在音樂的保舉中同樣用到了協(xié)同過濾算法,我們眾所周知的使用個性化保舉的音樂app應該屬「網(wǎng)易云音樂」比較典型了。