POST TIME:2018-12-03 21:39
先思考一個(gè)問(wèn)題,我們?cè)趺戳炕瘍蓚€(gè)事物的相似度呢?當(dāng)然,這也是保舉系統(tǒng)需要多次面臨的問(wèn)題。
我們知道向量的概念,可以形象化地體現(xiàn)為帶箭頭的線(xiàn)段。二維空間向量體現(xiàn)方法為,多維空間向量體現(xiàn)為,向量是描述事物一種很好模型。
好比,假設(shè)用戶(hù)有5個(gè)維度:
對(duì)服裝的喜歡程度(1~5分)對(duì)家居的喜歡程度(1~5分)對(duì)3C的喜歡程度(1~5分)對(duì)圖書(shū)的喜歡程度(1~5分)對(duì)化妝品的喜歡程度(1~5分)一個(gè)用戶(hù)A:對(duì)服裝的喜歡程度3,對(duì)家居的喜歡程度1,對(duì)3C的喜歡程度4,對(duì)圖書(shū)的喜歡程度5,對(duì)化妝品的喜歡程度0,用戶(hù)A可以用向量體現(xiàn)為一個(gè)用戶(hù)B:對(duì)服裝的喜歡程度3,對(duì)家居的喜歡程度4,對(duì)3C的喜歡程度5,對(duì)圖書(shū)的喜歡程度0,對(duì)化妝品的喜歡程度2,用戶(hù)B可以用向量體現(xiàn)為這兩個(gè)用戶(hù)的相似程度是多大呢?既然我們把這兩個(gè)用戶(hù)體現(xiàn)為向量,那么我們可以考慮向量怎么判斷相似性。沒(méi)錯(cuò),看這兩個(gè)向量的夾角。夾角約小,則相似度越大。
對(duì)于向量和而言,他們的在多維空間的夾角可以用向量余弦公式計(jì)算:
余弦相似度的值自己是一個(gè)0~1的值,0代表完全正交,1代表完全一致。就剛才用戶(hù)A和用戶(hù)B的例子而言,我們可以知道他們的相似度為:
余弦公式自己應(yīng)用范圍很廣,量化相似度在搜索保舉,商業(yè)策略中都是常見(jiàn)問(wèn)題,余弦公式是很好的解決方案。就保舉自己而言,計(jì)算內(nèi)容的相似度,計(jì)算用戶(hù)的相似度,計(jì)算用戶(hù)類(lèi)型的相似度,計(jì)算內(nèi)容類(lèi)型的相似度,這些都是可以應(yīng)用的場(chǎng)景。
1. 保舉的素質(zhì)是什么保舉和搜索素質(zhì)有相似的地方。搜索滿(mǎn)足用戶(hù)從海量數(shù)據(jù)中迅速找到本身感興趣內(nèi)容的需求,屬于用戶(hù)主動(dòng)獲取。保舉則是系統(tǒng)從海量數(shù)據(jù)中按照獲取到的用戶(hù)數(shù)據(jù),猜測(cè)用戶(hù)感興趣的內(nèi)容并保舉給用戶(hù),屬于系統(tǒng)保舉給用戶(hù)。素質(zhì)上都是為了在這個(gè)信息過(guò)載的時(shí)代,幫手用戶(hù)找到本身感興趣的東西。
保舉系統(tǒng)有很多種形式。運(yùn)營(yíng)或者編纂篩選出本身認(rèn)為最好的內(nèi)容放在首頁(yè),廣義上講這也是一種保舉。不過(guò)這個(gè)不在我們本期文章的討論范圍,本期主要是討論系統(tǒng)級(jí)另外保舉。這里主要介紹四類(lèi)常見(jiàn)的保舉方法:
基于內(nèi)容的保舉基于內(nèi)容的協(xié)同過(guò)濾基于用戶(hù)的協(xié)同過(guò)濾基于標(biāo)簽的保舉2. 基于內(nèi)容的保舉基于內(nèi)容的保舉是基礎(chǔ)的保舉策略。如果你瀏覽或購(gòu)買(mǎi)過(guò)某種類(lèi)型的內(nèi)容,則給你保舉這種類(lèi)型下的其他內(nèi)容。
以電影保舉為例。好比你之前看過(guò)《盜夢(mèng)空間》,則系統(tǒng)會(huì)關(guān)聯(lián)數(shù)據(jù)庫(kù)中盜夢(mèng)空間的信息。系統(tǒng)會(huì)保舉克里斯托弗·諾蘭導(dǎo)演的其他作品,好比《致命魔術(shù)》;系統(tǒng)會(huì)保舉主演里昂納多的其他作品,好比《第十一小時(shí)》。
如果這個(gè)電影系統(tǒng)的數(shù)據(jù)被很好地分類(lèi),那么保舉系統(tǒng)也會(huì)給用戶(hù)保舉這個(gè)分類(lèi)下的其他作品。盜夢(mèng)空間如果被歸為科幻作品,那么可能會(huì)保舉其他科幻作品,好比《星際迷航》。
基于內(nèi)容的保舉好處在于易于理解,,但是壞處是保舉方式比較依賴(lài)于完整的內(nèi)容知識(shí)庫(kù)的建立。如果內(nèi)容格式化比較差,那么基于內(nèi)容的保舉就無(wú)法實(shí)行。同時(shí)如果用戶(hù)留下的數(shù)據(jù)比較少,則保舉效果很差,因?yàn)闊o(wú)法擴(kuò)展。
3. 基于內(nèi)容的協(xié)同過(guò)濾協(xié)同過(guò)濾(Collaborative Filtering)與傳統(tǒng)的基于內(nèi)容過(guò)濾直接分析內(nèi)容進(jìn)行保舉差別,協(xié)同過(guò)濾會(huì)分析系統(tǒng)已有數(shù)據(jù),并結(jié)合用戶(hù)表示的數(shù)據(jù),對(duì)該指定用戶(hù)對(duì)此信息的愛(ài)好程度預(yù)測(cè)。
基于內(nèi)容的協(xié)同過(guò)濾(item-based CF),通過(guò)用戶(hù)對(duì)差別內(nèi)容的評(píng)分來(lái)評(píng)測(cè)內(nèi)容之間的相似性,基于內(nèi)容之間的相似性做出保舉;最典型的例子是著名的“啤酒加尿布”,就是通過(guò)分析知道啤酒和尿布經(jīng)常被美國(guó)爸爸們一起購(gòu)買(mǎi),于是在尿布邊上保舉啤酒,增加了啤酒銷(xiāo)量。
需要計(jì)算用戶(hù)u對(duì)物品j的興趣,公式如下:
這里N(u)體現(xiàn)用戶(hù)有關(guān)聯(lián)的商品的集合,wji體現(xiàn)物品j和i的相似度,rui體現(xiàn)用戶(hù)u對(duì)物品i的打分,示例如下:
這里還有兩個(gè)問(wèn)題沒(méi)有仔細(xì)描述,如何打分,如何計(jì)算相似度。
打分的話(huà)需要按照業(yè)務(wù)計(jì)算,如果有打分系統(tǒng)最好,沒(méi)有打分系統(tǒng),則需要按照用戶(hù)對(duì)這個(gè)物品的行為得到一個(gè)分?jǐn)?shù)。