一、特征詞庫的類別的建立與更新
眾所周知,百度有特征詞庫,通過特征詞庫,可以對用戶查詢序列,進行判斷。例如:當用戶搜索“天龍八部在線觀看” 、 “射雕英雄傳在線觀看” 、 “鹿鼎記在線觀看” 、 “電視劇在線觀看” 時, 由于這些待挖掘序列中的 “天龍八部” 、 “射雕英雄傳” 、 “鹿鼎記” 、 “電視劇” 在需求特征詞庫中屬于視頻類需求的特征詞, 并且 “在線觀看” 這一關(guān)鍵詞與上述視頻類需求的特征詞的共現(xiàn)頻次達到一定閾值(共現(xiàn)閾值)時,根據(jù)關(guān)鍵詞 “在線觀看” , 提取關(guān)鍵詞 “在線觀看” 與視頻需求類別的映射關(guān)系, 并根據(jù)映射關(guān)系來建立或更新需求特征詞庫。
二、對詞條的分類
首先對查詢序列進行切詞處理獲得切分后的詞條, 再通過諸如對詞條進行語義分析或根據(jù)詞條在需求特征詞庫中進行匹配查詢等方式, 來獲得所述候選需求類別。例如:用戶的查詢序列為 “土豆上的熱門影視劇” 時, 通過對其進行切詞處理, 得到 “土豆 /熱門 / 影視劇” , 由于影視劇一詞具有明顯的需求類別, 諸如視頻、 下載、 圖片、 演員介紹,再通過諸如對詞條進行語義分析或根據(jù)所述詞條在需求特征詞庫中進行匹配查詢等方式, 來獲得候選需求類別。
當挖掘序列相對應(yīng)的分類結(jié)果的用戶累計點擊次數(shù)超過預(yù)設(shè)點擊閾值時, 基于所述分類結(jié)果所對應(yīng)的需求類別, 提取待挖掘序列與需求類別的映射關(guān)系, 并根據(jù)映射關(guān)系來建立或更新需求特征詞庫,例如, 當待挖掘序列為“日本地震” 時, 根據(jù)該待挖掘序列對應(yīng)的分類結(jié)果, 如視頻類搜索結(jié)果、 新聞類搜索結(jié)果、圖片類搜索結(jié)果, 若視頻類搜索結(jié)果對應(yīng)的用戶累計點擊次數(shù)為 300, 新聞類搜索結(jié)果對應(yīng)的用戶累計點擊次數(shù)為 25000, 圖片類搜索結(jié)果對應(yīng)的用戶累計點擊次數(shù)為 700, 預(yù)設(shè)點擊閾值為 10000 時, 將待挖掘序列對應(yīng)的分類結(jié)果的用戶累計點擊次數(shù)與預(yù)設(shè)點擊閾值進行比較, 并根據(jù)高于所述預(yù)設(shè)點擊閾值的分類結(jié)果所對應(yīng)的需求類別, 即新聞需求類別, 提取該待挖掘序列與新聞需求類別間的所述映射關(guān)系, 并根據(jù)映射關(guān)系來建立或更新需求特征詞庫。
三、獲取需求度
1、獲取與用戶的查詢序列相對應(yīng)的原始搜索結(jié)果
2、獲取與查詢序列相對應(yīng)的候選需求類別
對原始搜索結(jié)果進行處理,根據(jù)查詢序列, 通過諸如對查詢序列進行語義分析或根據(jù)查詢序列在需求特征詞庫中進行匹配查詢等方式, 來獲得候選需求類別。例如, 當用戶的查詢序列為 “土豆上的熱門影視劇” 時, 通過對其進行切詞處理, 得到 “土豆 / 熱門 /影視劇” , 由于影視劇一詞具有明顯的需求類別, 諸如視頻、 下載、 圖片、 演員介紹, 對該查詢序列進行語義分析或在需求特征詞庫中進行匹配查詢, 來獲得候選需求類別, 例如根據(jù) “影視劇” 可知該查詢序列對應(yīng)的候選需求類別包括視頻、 下載、 圖片、 演員介紹。
3、根據(jù)查詢序列與候選需求類別,確定與查詢序列相對應(yīng)的類別需求度
根據(jù)查詢序列和候選需求類別, 通過諸如對該查詢序列所對應(yīng)的搜索結(jié)果按類別進行統(tǒng)計分析或者對關(guān)于搜索結(jié)果的歷史點擊記錄按類別進行統(tǒng)計分析, 確定所述查詢序列對于每一候選需求類別的類別需求度。例如:“×× 影視明星” 時, 根據(jù)查詢序列,得到候選需求類別包括視頻、 新聞、 背景介紹、 音樂、 圖片, 然后根據(jù)查詢序列和候選需求類別, 通過諸如對該查詢序列所對應(yīng)的搜索結(jié)果按類別進行統(tǒng)計分析或者對關(guān)于搜索結(jié)果的歷史點擊記錄按類別進行統(tǒng)計分析, 確定與所述查詢序列相對應(yīng)的類別需求度, 如, “×× 影視明星” 查詢序列在視頻類的類別需求度為 0.3 ; 查詢序列在新聞類的類別需求度為 0.3 ; 查詢序列在背景介紹類的類別需求度為 0.1 ; 查詢序列在音樂類的類別需求度為 0.2 ; 以及查詢序列在圖片類的類別需求度為 0.1。
需求度確定:
用戶的查詢序列為 “×× 影視明星” , 將查詢序列在需求特征詞庫中進行匹配查詢,當在需求特征詞庫中匹配查詢到 ×× 影視明星屬于明星列表并且該明星列表對應(yīng)的需求類別包括視頻、 新聞、 背景介紹、 音樂和圖片時,得到與查詢序列相對應(yīng)的候選需求類別包括視頻、 新聞、 背景介紹、 音樂和圖片。結(jié)合該查詢序列相應(yīng)的大量用戶的點擊統(tǒng)計分析, 如:統(tǒng)計分析結(jié)果中表明視頻類搜索結(jié)果、 新聞類搜索結(jié)果、 背景介紹類搜索結(jié)果、 音樂類搜索結(jié)果與圖片類搜索結(jié)果的用戶點擊頻次分別為 60000 次、 10000 次、 10000 次、 10000 次和10000 次, 則查詢序列對于視頻類搜索結(jié)果的類別需求度為 0.6, 而對于圖片類搜索結(jié)果的類別需求度為0.1。
4、根據(jù)類別需求度, 將搜索結(jié)果提供給用戶。
根據(jù)所述類別需求度, 將搜索結(jié)果提供給所述用戶。還是以“×× 影視明星”為例: 當用戶的查詢序列為 “×× 影視明星” 時, 查詢序列在視頻類的類別需求度為 0.3, 在新聞類的類別需求度為 0.3, 在背景介紹類的類別需求度為0.1, 在音樂類的類別需求度為0.2, 在圖片類的類別需求度為0.1時, 若查詢序列的搜索結(jié)果列表中的第一頁顯示 10 條搜索結(jié)果, 根據(jù)類別需求度,將 3 條視頻類的搜索結(jié)果、 3 條新聞類的搜索結(jié)果、 1 條背景介紹類的搜索結(jié)果、 2 條音樂類的搜索結(jié)果提供給用戶, 并且將剩余的所有搜索結(jié)果中與查詢序列相關(guān)度最高的 1 條搜索結(jié)果在第一頁提供給用戶。
根據(jù)類別需求度,將類別需求度與搜索結(jié)果提供給用戶。具體地,根據(jù)查詢序列與候選需求類別, 通過諸如對該查詢序列所對應(yīng)的搜索結(jié)果按類別進行統(tǒng)計分析或者對關(guān)于搜索結(jié)果的歷史點擊記錄按類別進行統(tǒng)計分析, 確定了與查詢序列相對應(yīng)的類別需求度后,以諸如特別字體、 浮動窗口等方式, 將搜索結(jié)果相對應(yīng)的類別需求度與搜索結(jié)果提供給所述用戶。百度已使用此類技術(shù),可在百度搜索結(jié)果頁面中找找。
四、對結(jié)果的優(yōu)選
查詢相關(guān)屬性包括以下至少任一項 :
1.搜索結(jié)果與所述查詢序列的相關(guān)度 ;
2.搜索結(jié)果的權(quán)威度 ;
3.搜索結(jié)果的時效性。
1.相關(guān)度:優(yōu)選結(jié)果不僅根據(jù)搜索結(jié)果所對應(yīng)的類別需求度, 而且還結(jié)合搜索結(jié)果與查詢序列之間的相關(guān)度, 將搜索結(jié)果提供給對應(yīng)的用戶。當搜索結(jié)果所對應(yīng)的新聞類搜索結(jié)果的類別需求度和音樂類搜索結(jié)果的類別需求度相同時, 將所述搜索結(jié)果對應(yīng)的類別需求度與搜索結(jié)果和查詢序列之間的相關(guān)度結(jié)合, 將所述搜索結(jié)果提供給用戶。
(1)網(wǎng)站內(nèi)容是否和網(wǎng)站主題相關(guān)。
可以方便搜索引擎把你網(wǎng)站進行定位,方便對你網(wǎng)站進行類目分類。準確的類目分類對提升網(wǎng)站在某一個行業(yè)中的權(quán)威度有很大的好處。
(2)網(wǎng)站中的內(nèi)容是否能夠滿足用戶需求。
這個討論的太多了。就不一一詳解。
2.權(quán)威度:確定查詢序列的類別需求度后, 搜索結(jié)果對應(yīng)的類別需求度與搜索結(jié)果的權(quán)威度結(jié)合提供給用戶,例如:查詢序列對應(yīng)的新聞類搜索結(jié)果的權(quán)威度較高而查詢序列對應(yīng)的音樂類搜索結(jié)果的權(quán)威度較低時,將查詢序列對應(yīng)的新聞類搜索結(jié)果和音樂類搜索結(jié)果依次提供給所述用戶對應(yīng)的用戶。
權(quán)威不等于知名,知名反作用于權(quán)威。
權(quán)威度的計算方法比較復(fù)雜,有很多的基數(shù)作為參考,以下列出“可能”決定權(quán)威度的一部分基數(shù)。
(1)網(wǎng)站品牌詞的搜索量。
(2)與網(wǎng)站相關(guān)的長尾詞的流量。
(3)直接訪問流量。
(4)url中的體現(xiàn)的權(quán)威度(在索引庫中存在的時間,在搜索中的表現(xiàn),政府網(wǎng)站等)。
(5)口碑與社交媒體的轉(zhuǎn)載。搜索引擎一直在監(jiān)控網(wǎng)絡(luò)上用戶的一舉一動。不過因為一些“原因”有些是直接效果,有些是間接效果,或者沒效果。不過所有可以點擊的link都是有用的。
(6)網(wǎng)站更新頻率。嘿~!這個網(wǎng)站還有人維護呢。不是死站。短期內(nèi)不維護(春節(jié)放假7天)影響不大。當長時間不維護。真的可能會降權(quán)。
(7)頁面代碼的規(guī)范化。雖然現(xiàn)在已經(jīng)過了扣細節(jié)的時代,但是搜索引擎還是通過源代碼來獲取頁面信息。適當?shù)臏p噪,可以讓搜索引擎更方便的判斷主體內(nèi)容,主題,頁面結(jié)構(gòu)等。
(8)所有元標簽內(nèi)容的質(zhì)量與相關(guān)度。tkd的重要性不用說了。
(9)外部投票:百度的外部鏈接算法,最近看了個百度的文章,貌似是:把網(wǎng)站所有的有外鏈的頁面建成一個合集,把其他一些結(jié)構(gòu)相似的頁面建立一個合集,通過合集之間的互換外部投票的權(quán)重,得到結(jié)構(gòu)相似的頁面外部投票的權(quán)重,在加上內(nèi)部投票權(quán)重,等于未處理的原始頁面權(quán)重。
(10)相關(guān)文章內(nèi)容是否豐富。(文章數(shù)量,質(zhì)量,配圖情況等)
3.時效性:不僅根據(jù)搜索結(jié)果所對應(yīng)的類別需求度,而且還結(jié)合搜索結(jié)果的時效性,將搜索結(jié)果提供給用戶。例如:查詢序列對應(yīng)的新聞類搜索結(jié)果的時效性較強而查詢序列對應(yīng)的音樂類搜索結(jié)果的時效性較弱時, 將查詢序列對應(yīng)的新聞類搜索結(jié)果和音樂類搜索結(jié)果依次提供給用戶對應(yīng)的用戶。
多見于時效性很強的內(nèi)容。如:mh370飛機失事前,排名在mh370搜索結(jié)果頁面的主要為mh370飛機的訂票,介紹等信息。當飛機失事后,隨著新聞類目需求的增加,搜索結(jié)果頁面也隨之進行了變化。