主頁(yè) > 快速排名 > 常見(jiàn)問(wèn)題 > SEO教程:搜索引擎預(yù)處理規(guī)則有哪些

SEO教程:搜索引擎預(yù)處理規(guī)則有哪些

POST TIME:2018-12-03 19:13

    想要做好SEO,最關(guān)鍵的是把握好搜索引擎的工作原理,想要全面的了解搜索引擎,還需要了解搜索引擎的處理規(guī)則都有哪些,只有這樣才能做到有的放矢。       第一,提取文字?,F(xiàn)在的搜索引擎主要還是以文字內(nèi)容為基礎(chǔ)的,蜘蛛抓取到的頁(yè)面中的HTML代碼,除了用戶在瀏覽器上可以看到的可見(jiàn)文字處,還包含了大量的HTML格式標(biāo)簽,JavaScript程序等無(wú)法用于排名的內(nèi)容,搜索引擎預(yù)處理首先要做的就是從HTML文件中去除標(biāo)簽、程序,提取出可以用于排名處理的網(wǎng)頁(yè)面文字內(nèi)容。     第二,中文分詞。分詞是中文搜索引擎特有的步驟。搜索引擎存儲(chǔ)和處理頁(yè)面及用戶搜索都是以詞為基礎(chǔ)的。英文等語(yǔ)言單詞與單詞之間有空格分隔,搜索引擎索引程序可以直接把句子劃分為單詞的集合。而中文詞與詞之間沒(méi)有任何分隔符,一個(gè)句子中所有字和詞都是連在一起的。搜索引擎必須首先分辨哪幾個(gè)詞組成一個(gè)詞,哪些字本身就是一個(gè)詞。     第三,去停止詞。無(wú)論是英文還是中文,頁(yè)面內(nèi)容中都會(huì)有一些出現(xiàn)頻率很高,卻對(duì)內(nèi)容沒(méi)有任何影響的詞,如“的”、“地”、“得”之類的助詞,而搜索引擎在索引頁(yè)面之前會(huì)去掉這些停止詞,使索引數(shù)據(jù)主題更為突出,減少無(wú)謂的計(jì)算量。     第四,去除噪音。絕大部分頁(yè)面上還有一部分內(nèi)容對(duì)頁(yè)面主題也沒(méi)有什么貢獻(xiàn),比如版權(quán)聲明文字,導(dǎo)航條、廣告等。而這寫沒(méi)什么貢獻(xiàn)的內(nèi)容就都屬于噪聲,對(duì)頁(yè)面主題只能起到分散作用。     第五,去重。去重的基本方法是對(duì)頁(yè)面特征關(guān)系詞計(jì)算指指紋,也就是說(shuō)從頁(yè)面主體內(nèi)容中選取最有的一部分關(guān)鍵詞,然后計(jì)算這些關(guān)鍵詞的數(shù)字指紋。這些關(guān)鍵詞選取是在分詞、去停止詞、消噪之后。

標(biāo)簽:鹽城 烏魯木齊 九江 東營(yíng) 林芝



收縮
  • 微信客服
  • 微信二維碼
  • 電話咨詢

  • 400-1100-266