无码激情gif动态图剧情,2018手机在线看片,欧美亚洲中文日韩

主頁 > 知識庫 > 達(dá)不雅觀數(shù)據(jù)是如何基于用戶歷史行為進(jìn)行精準(zhǔn)個性化保舉的?

達(dá)不雅觀數(shù)據(jù)是如何基于用戶歷史行為進(jìn)行精準(zhǔn)個性化保舉的?

在DT(data technology)時代，網(wǎng)上購物、不雅觀看視頻、聆聽音樂、閱讀新聞等各個領(lǐng)域無不充斥著各種保舉，個性化保舉已經(jīng)完全融入人們的日常生活傍邊。個性化保舉按照用戶的歷史行為數(shù)據(jù)進(jìn)行深層興趣點(diǎn)挖掘，將用戶最感興趣的物品保舉給用戶，從而做到千人千面，不但滿足了用戶素質(zhì)的信息訴求，也最大化了企業(yè)的自身利益，所以個性化保舉蘊(yùn)含著無限商機(jī)。

號稱“保舉系統(tǒng)之王”的電子商務(wù)網(wǎng)站亞馬遜曾宣稱，亞馬遜有20%～30%的銷售來自于保舉系統(tǒng)。其最大優(yōu)勢就在于個性化保舉系統(tǒng)，該系統(tǒng)讓每個用戶都能有一個屬于本身的在線商店，而且在商店中能招到本身最感興趣的商品。美國著名視頻網(wǎng)站Netflix曾舉辦保舉系統(tǒng)角逐，懸賞 100 萬美元，希望能將其保舉算法的預(yù)測準(zhǔn)確度提升10%。美國最大的視頻網(wǎng)站YouTube曾做過實(shí)驗(yàn)比較個性化保舉和熱門視頻的點(diǎn)擊率，結(jié)果顯示個性化保舉的點(diǎn)擊率是后者的兩倍。

達(dá)不雅觀數(shù)據(jù)擁有雄厚的研發(fā)保舉系統(tǒng)的技術(shù)積累，曾在ACM、CIKM、KDD、Hackathon等國際競賽的獲獎，在內(nèi)容保舉，文本挖掘、廣告系統(tǒng)等方面申請有超過三十項(xiàng)國家發(fā)明專利。本文從數(shù)據(jù)處理、用戶行為建模到個性化保舉，分享達(dá)不雅觀數(shù)據(jù)在個性化保舉系統(tǒng)方面積累的一些經(jīng)驗(yàn)。(達(dá)不雅觀數(shù)據(jù)聯(lián)合創(chuàng)始人于敬)

1.數(shù)據(jù)收集及預(yù)處理

保舉系統(tǒng)的素質(zhì)其實(shí)就是通過必然的方式將用戶和喜歡的物品聯(lián)系起來。物品和用戶自身擁有眾多屬性信息進(jìn)行標(biāo)識。

1)物品屬性

用戶體現(xiàn)保舉系統(tǒng)的主體，自身屬性包孕人口統(tǒng)計(jì)學(xué)信息以及從用戶行為數(shù)據(jù)中挖掘分析得到的偏好等。

3)用戶行為

用戶行為分析

在數(shù)據(jù)采集的過程中，不免會出現(xiàn)一些臟數(shù)據(jù)，在使用數(shù)據(jù)前需要進(jìn)行清洗。過濾掉關(guān)鍵字段為空、數(shù)值異常、類型異常等數(shù)據(jù);用戶id包孕cookie、手機(jī)號、email、注冊id等，需要進(jìn)行映射得到用戶唯一id;以及數(shù)據(jù)去重等操作。別的，還有“報答”的臟數(shù)據(jù)，如作弊、刷單等行為，這些數(shù)據(jù)也需要清除，不然會嚴(yán)重影響后續(xù)算法的效果。達(dá)不雅觀數(shù)據(jù)在反作弊方面也做了很多工作，可有效篩選各種行為上的作弊情況。

2.用戶行為建模

基于用戶歷史行為的進(jìn)行挖掘分析，得到刻畫用戶素質(zhì)需求的一組屬性集合，即得到用戶模型，個性化保舉的準(zhǔn)確性很大程度上依賴于對用戶屬性刻畫的準(zhǔn)確性。達(dá)不雅觀數(shù)據(jù)采用了多種方式進(jìn)行量化，主要包孕顯式用戶偏好分析和隱式用戶興趣點(diǎn)挖掘。

1)顯式用戶偏好分析

除了結(jié)合物品信息進(jìn)行分析計(jì)算得到的顯式偏好外，還有一部分隱式興趣點(diǎn)需要挖掘，這部分主要用于細(xì)分用戶群體，進(jìn)行有針對性的進(jìn)行更有效的保舉。劃分群體的準(zhǔn)則要按照具體的業(yè)務(wù)需求而定，好比是否是高價值用戶、是否價格敏感、是否對大牌情有獨(dú)鐘、大神用戶和小白用戶的區(qū)分、喜歡熱門流行還是偏小眾的等等。借助機(jī)器學(xué)習(xí)中的分類(如SVM)和聚類(如k-means)算法可有效解決用戶群體的劃分問題，牽涉到的訓(xùn)練和測試數(shù)據(jù)需要先按照一些規(guī)則粗略得到候選集，在結(jié)合人工標(biāo)記的進(jìn)行篩選。除了可以從行為數(shù)據(jù)中抽取特征外，也可以從物品和用戶的屬性數(shù)據(jù)中抽取特征。經(jīng)過模型的訓(xùn)練、預(yù)測和后處理，從而將用戶劃分到差別的群體。

3)協(xié)同過濾的基石

相似度計(jì)算方法對保舉效果的影響

相似度的計(jì)算很多種方法，如余弦相似度、皮爾遜相關(guān)度等，曾經(jīng)使用mahout做過的一個差別相似度度量方法下的對比測試結(jié)果，測試中score的計(jì)算使用的是絕對差值的平均，越小越好。本次測試結(jié)果表白，在基于用戶的協(xié)同過濾中，使用皮爾遜相關(guān)度的計(jì)算方法，保舉效果最好。

其實(shí)差別的相似度計(jì)算方法有各自的優(yōu)缺點(diǎn)，適用差別的應(yīng)用場景，可以通過對比測試進(jìn)行拔取。在實(shí)際業(yè)務(wù)中，相似度的計(jì)算方法都有很多變種，好比是否考慮去除冷門物品和熱門物品的影響。終究過于冷門和過于熱門的物品對衡量用戶間的相似度時區(qū)分度欠好，這時就需要進(jìn)行剪枝。這種基于K近鄰的拔取相似用戶的方法，相似度的閾值設(shè)置對結(jié)果影響很大，太大的話召回物品過多，準(zhǔn)確度會有下降。

4)時間維度上的考量

3.個性化保舉的實(shí)踐經(jīng)驗(yàn)

標(biāo)簽：長沙駐馬店大慶宜春瀘州四平紅河忻州

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《達(dá)不雅觀數(shù)據(jù)是如何基于用戶歷史行為進(jìn)行精準(zhǔn)個性化保舉的?》，本文關(guān)鍵詞達(dá),不雅觀,數(shù)據(jù),是,如何,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。