在DT(data
technology)時代,網(wǎng)上購物、不雅觀看視頻、聆聽音樂、閱讀新聞等各個領(lǐng)域無不充斥著各種保舉,個性化保舉已經(jīng)完全融入人們的日常生活傍邊。個性化保舉按照用戶的歷史行為數(shù)據(jù)進(jìn)行深層興趣點(diǎn)挖掘,將用戶最感興趣的物品保舉給用戶,從而做到千人千面,不但滿足了用戶素質(zhì)的信息訴求,也最大化了企業(yè)的自身利益,所以個性化保舉蘊(yùn)含著無限商機(jī)。
號稱“保舉系統(tǒng)之王”的電子商務(wù)網(wǎng)站亞馬遜曾宣稱,亞馬遜有20%~30%的銷售來自于保舉系統(tǒng)。其最大優(yōu)勢就在于個性化保舉系統(tǒng),該系統(tǒng)讓每個用戶都能有一個屬于本身的在線商店,而且在商店中能招到本身最感興趣的商品。美國著名視頻網(wǎng)站Netflix曾舉辦保舉系統(tǒng)角逐,懸賞 100 萬美元,希望能將其保舉算法的預(yù)測準(zhǔn)確度提升10%。美國最大的視頻網(wǎng)站YouTube曾做過實(shí)驗(yàn)比較個性化保舉和熱門視頻的點(diǎn)擊率,結(jié)果顯示個性化保舉的點(diǎn)擊率是后者的兩倍。
達(dá)不雅觀數(shù)據(jù)擁有雄厚的研發(fā)保舉系統(tǒng)的技術(shù)積累,曾在ACM、CIKM、KDD、Hackathon等國際競賽的獲獎,在內(nèi)容保舉,文本挖掘、廣告系統(tǒng)等方面申請有超過三十項(xiàng)國家發(fā)明專利。本文從數(shù)據(jù)處理、用戶行為建模到個性化保舉,分享達(dá)不雅觀數(shù)據(jù)在個性化保舉系統(tǒng)方面積累的一些經(jīng)驗(yàn)。(達(dá)不雅觀數(shù)據(jù)聯(lián)合創(chuàng)始人 于敬)
1.數(shù)據(jù)收集及預(yù)處理
保舉系統(tǒng)的素質(zhì)其實(shí)就是通過必然的方式將用戶和喜歡的物品聯(lián)系起來。物品和用戶自身擁有眾多屬性信息進(jìn)行標(biāo)識。
1)物品屬性
用戶體現(xiàn)保舉系統(tǒng)的主體,自身屬性包孕人口統(tǒng)計(jì)學(xué)信息以及從用戶行為數(shù)據(jù)中挖掘分析得到的偏好等。
3)用戶行為
用戶行為分析
在數(shù)據(jù)采集的過程中,不免會出現(xiàn)一些臟數(shù)據(jù),在使用數(shù)據(jù)前需要進(jìn)行清洗。過濾掉關(guān)鍵字段為空、數(shù)值異常、類型異常等數(shù)據(jù);用戶id包孕cookie、手機(jī)號、email、注冊id等,需要進(jìn)行映射得到用戶唯一id;以及數(shù)據(jù)去重等操作。別的,還有“報答”的臟數(shù)據(jù),如作弊、刷單等行為,這些數(shù)據(jù)也需要清除,不然會嚴(yán)重影響后續(xù)算法的效果。達(dá)不雅觀數(shù)據(jù)在反作弊方面也做了很多工作,可有效篩選各種行為上的作弊情況。
2.用戶行為建模
基于用戶歷史行為的進(jìn)行挖掘分析,得到刻畫用戶素質(zhì)需求的一組屬性集合,即得到用戶模型,個性化保舉的準(zhǔn)確性很大程度上依賴于對用戶屬性刻畫的準(zhǔn)確性。達(dá)不雅觀數(shù)據(jù)采用了多種方式進(jìn)行量化,主要包孕顯式用戶偏好分析和隱式用戶興趣點(diǎn)挖掘。
1)顯式用戶偏好分析
除了結(jié)合物品信息進(jìn)行分析計(jì)算得到的顯式偏好外,還有一部分隱式興趣點(diǎn)需要挖掘,這部分主要用于細(xì)分用戶群體,進(jìn)行有針對性的進(jìn)行更有效的保舉。劃分群體的準(zhǔn)則要按照具體的業(yè)務(wù)需求而定,好比是否是高價值用戶、是否價格敏感、是否對大牌情有獨(dú)鐘、大神用戶和小白用戶的區(qū)分、喜歡熱門流行還是偏小眾的等等。借助機(jī)器學(xué)習(xí)中的分類(如SVM)和聚類(如k-means)算法可有效解決用戶群體的劃分問題,牽涉到的訓(xùn)練和測試數(shù)據(jù)需要先按照一些規(guī)則粗略得到候選集,在結(jié)合人工標(biāo)記的進(jìn)行篩選。除了可以從行為數(shù)據(jù)中抽取特征外,也可以從物品和用戶的屬性數(shù)據(jù)中抽取特征。經(jīng)過模型的訓(xùn)練、預(yù)測和后處理,從而將用戶劃分到差別的群體。
3)協(xié)同過濾的基石
相似度計(jì)算方法對保舉效果的影響
相似度的計(jì)算很多種方法,如余弦相似度、皮爾遜相關(guān)度等,曾經(jīng)使用mahout做過的一個差別相似度度量方法下的對比測試結(jié)果,測試中score的計(jì)算使用的是絕對差值的平均,越小越好。本次測試結(jié)果表白,在基于用戶的協(xié)同過濾中,使用皮爾遜相關(guān)度的計(jì)算方法,保舉效果最好。
其實(shí)差別的相似度計(jì)算方法有各自的優(yōu)缺點(diǎn),適用差別的應(yīng)用場景,可以通過對比測試進(jìn)行拔取。在實(shí)際業(yè)務(wù)中,相似度的計(jì)算方法都有很多變種,好比是否考慮去除冷門物品和熱門物品的影響。終究過于冷門和過于熱門的物品對衡量用戶間的相似度時區(qū)分度欠好,這時就需要進(jìn)行剪枝。這種基于K近鄰的拔取相似用戶的方法,相似度的閾值設(shè)置對結(jié)果影響很大,太大的話召回物品過多,準(zhǔn)確度會有下降。
4)時間維度上的考量
3.個性化保舉的實(shí)踐經(jīng)驗(yàn)