我們向搜索引擎提交一個(gè)查詢,搜索引擎會從先到后列出大量的結(jié)果,排序的不同帶來的經(jīng)濟(jì)效應(yīng)也不同,我們想要的就是讓自己的搜索結(jié)果靠前,最好是能得到NO.1。那么這些搜索結(jié)果排序的標(biāo)準(zhǔn)是什么呢?
還是看看百度搜索研發(fā)部以求醫(yī)為例談搜索引擎排序算法的基礎(chǔ)原理。
比如,如果我牙疼,應(yīng)該去看怎樣的醫(yī)生呢?假設(shè)只有三種選擇:
A醫(yī)生,既治眼病,又治胃??;
B醫(yī)生,既治牙病,又治胃病,還治眼病;
C醫(yī)生,專治牙病。
A醫(yī)生肯定不在考慮之列,B醫(yī)生和C醫(yī)生之間,貌視更應(yīng)該選擇C醫(yī)生,因?yàn)樗鼘W?,更適合我的病情。假如再加一個(gè)條件:B醫(yī)生經(jīng)驗(yàn)豐富,有二十年從醫(yī)經(jīng)歷,醫(yī)術(shù)高明,而C醫(yī)生只有五年從醫(yī)經(jīng)驗(yàn),這個(gè)問題就不那么容易判斷了,是優(yōu)先選擇更加專注的C醫(yī)生,還是優(yōu)先選擇醫(yī)術(shù)更加高明的B醫(yī)生,的確成了一個(gè)需要仔細(xì)權(quán)衡的問題。
至少,我們得到了一個(gè)結(jié)論,擇醫(yī)需要考慮兩個(gè)條件:醫(yī)生的專長與病情的適配程度、醫(yī)生的醫(yī)術(shù)。大家肯定覺得這個(gè)結(jié)論理所當(dāng)然,而且可以很自然地聯(lián)想到,搜索引擎排序不也是這樣嗎,既要考慮網(wǎng)頁內(nèi)容與用戶搜索查詢的匹配程度,又要考慮網(wǎng)頁本身的質(zhì)量。
但是,怎么把這兩種因素結(jié)合起來,得到一個(gè),而不是兩個(gè)或多個(gè)排序標(biāo)準(zhǔn)呢?簡單的加減乘除是不夠嚴(yán)謹(jǐn)?shù)?,最好能跟?shù)學(xué)這樣堅(jiān)實(shí)的學(xué)科聯(lián)系起來。人類在古代就能建造出高樓,但要建造出高達(dá)數(shù)百米的摩天大廈,如果沒有建筑力學(xué)、材料力學(xué)這樣堅(jiān)實(shí)的學(xué)科作為后盾,則是非常非常困難的。同理,搜索引擎算法要處理上億的網(wǎng)頁,也需要更為牢固的理論基礎(chǔ)。
求醫(yī),病人會優(yōu)先選擇診斷準(zhǔn)確、治療效果好的醫(yī)生。而對于搜索引擎來說,一般按網(wǎng)頁滿足用戶需求的概率從大到小排序。如果用q表示用戶給出了一個(gè)特定的搜索查詢,用d表示一個(gè)特定的網(wǎng)頁滿足了用戶的需求,那么排序的依據(jù)可以用一個(gè)條件概率來表示:
這個(gè)簡單的條件概率,將搜索引擎排序算法與概率論這門堅(jiān)實(shí)的學(xué)科聯(lián)系了起來??梢钥吹?,搜索引擎的排序標(biāo)準(zhǔn),是由三個(gè)部分組成的:搜索查詢本身的屬性P(q)、網(wǎng)頁本身的屬性P(d)、兩者的匹配關(guān)系P(q|d)。對于同一次查詢來說,所有網(wǎng)頁對應(yīng)的P(q)都是一樣的,因此排序時(shí)可以不考慮,即
搜索引擎為了提高響應(yīng)用戶搜索查詢的性能,需要事先對所有待查詢的網(wǎng)頁做預(yù)處理。預(yù)處理時(shí),搜索引擎預(yù)處理只知道網(wǎng)頁,還不知道用戶查詢,因此需要倒過來計(jì)算,即分析每個(gè)網(wǎng)頁能滿足哪些需求,該網(wǎng)頁分了多大比例來滿足該需求,即得到公式右邊的第一項(xiàng)P(q|d),這相當(dāng)于醫(yī)生的專注程度。
比如,一個(gè)網(wǎng)頁專門介紹牙病,另一個(gè)網(wǎng)頁既介紹牙病又介紹胃病,那么對于“牙疼”這個(gè)查詢來說,前一個(gè)網(wǎng)頁的P(q|d)值就會更高一些。
公式右邊的第二項(xiàng)P(d),是一個(gè)網(wǎng)頁滿足用戶需求的概率,它反映了網(wǎng)頁本身的好壞,與查詢無關(guān)。假如要向一個(gè)陌生人推薦網(wǎng)頁(我們并不知道他需要什么),那么P(d)就相當(dāng)于某個(gè)特定的網(wǎng)頁被推薦的概率。在傳統(tǒng)的信息檢索模型中,這個(gè)不太被重視,之前都試圖只根據(jù)查詢與文檔的匹配關(guān)系來得到排序的權(quán)重。而實(shí)際上,這個(gè)與查詢無關(guān)的量是非常重要的。
假如我們用網(wǎng)頁被訪問的頻次來估計(jì)它滿足用戶需求的概率,可以看出對于兩個(gè)不同的網(wǎng)頁,這個(gè)量有著極其巨大的差異:有的網(wǎng)頁每天只被訪問一兩次,而有的網(wǎng)頁每天被訪問成千上萬次,這對于排序非常重要。
總而言之,這個(gè)公式模型告訴了我們網(wǎng)頁與查詢的匹配程度,和網(wǎng)頁本身的好壞都是參與排序排名的重要因素。
怎么樣?文章中的內(nèi)容在現(xiàn)在是不是有很多都似曾相似,是不是在互聯(lián)網(wǎng)上看到很多文章都和這類似?其實(shí)很多內(nèi)容都是從這里衍生出去的。比如搜索引擎的綜合得分排序、比如關(guān)鍵詞與網(wǎng)頁內(nèi)容的相關(guān)度、比如網(wǎng)頁本身好壞對排序影響等等。
一個(gè)最簡單的例子,著名的搜索引擎排序算法pagerank算法,其實(shí)就是為了彌補(bǔ)傳統(tǒng)算法對P(d)值(頁面本身好壞判斷)的不足而產(chǎn)生的,Pagerank是對網(wǎng)頁好壞判斷的一個(gè)不錯(cuò)的標(biāo)準(zhǔn)。而現(xiàn)在的網(wǎng)頁點(diǎn)擊量、停留時(shí)間、跳出率、頁面訪問速度等都是對網(wǎng)頁滿足用戶需求概率的預(yù)估,這一個(gè)因素越來越重要。
其實(shí)也是大篇幅的在談?wù)劸W(wǎng)頁本身好壞這一點(diǎn)。隨著用戶時(shí)代來臨,用戶投票越來越影響搜索排名,而用戶主要衡量的除了需求滿足外就是網(wǎng)頁本身質(zhì)量。所以,網(wǎng)頁本身質(zhì)量不管對于用戶還是搜索引擎,在排序上都變得越來越重要。
一句話,很多時(shí)候需要透過現(xiàn)象去看本質(zhì),而你看透這個(gè)本質(zhì)后,再看其他現(xiàn)象,一切都那么明了。謝謝閱讀,希望能幫到大家,請繼續(xù)關(guān)注腳本之家,我們會努力分享更多優(yōu)秀的文章。