術(shù)語1:索引與爬行
當搜索引擎已經(jīng)索引一個網(wǎng)站的時候,這意味著什么?這說明我們的網(wǎng)站以[site:www.site.com]這種形式出現(xiàn)在搜索引擎中,并且這個頁面已經(jīng)被添加至搜索引擎的數(shù)據(jù)庫中。但是這并不意味這該網(wǎng)頁就已經(jīng)被搜索引擎爬行了。這就是為什么我們總是會看見這樣的情況:
“A description for this result is not available because of this site’s robots.txt.”
索引與爬行兩者之間存在著優(yōu)先關(guān)系:
- 首先,頁面的URL被發(fā)現(xiàn);
- 然后,搜索引擎爬行該頁面;
- 最后,搜索引擎索引該頁面。
索引包含了搜索引擎所提取的網(wǎng)頁中重要的詞語或者短語,并不包含任何其他文檔或文件。索引中的每個詞語或者短語都指向其相應(yīng)的文檔或者文件。
另一種解釋:如果搜索引擎知道了網(wǎng)站的URL,將會判斷是否應(yīng)將該URL添加至爬行系統(tǒng)。如果已添加至爬行系統(tǒng),搜索引擎會根據(jù)一些算法來將這些URL按照優(yōu)先級來排序,最后按照這種順序來爬行相應(yīng)網(wǎng)頁。當該頁面已經(jīng)被爬行了之后,搜索引擎會啟動另一算法來評估該頁面是否有必要放入索引系統(tǒng)。因此,并不是每一個頁面搜索引擎都會爬行和索引。搜索引擎只爬行那些它們認為有價值、有意義的頁面。
注意:
- Robot.txt文件能夠阻止搜索引擎爬行該網(wǎng)頁。搜索引擎會根據(jù)Robot.txt中的規(guī)則來爬行網(wǎng)站。如果存在網(wǎng)頁在Robot.txt文件設(shè)置為禁止爬行,那么搜索引擎只能夠通過一些類似于網(wǎng)站內(nèi)鏈中的文本信息了解該頁面的部分內(nèi)容。因此,如果你想要網(wǎng)頁被搜索引擎爬取,最好檢查一下Robot.txt文件。
- 谷歌與其他搜索引擎如:必應(yīng)、雅虎等,有一點不同。當其他因素極強地預(yù)示該頁面應(yīng)該被索引,谷歌可能仍然會將該未被索引過的頁面顯示出來。而必應(yīng)和雅虎則會遵從你的網(wǎng)頁規(guī)則。
術(shù)語2:PageRank
另一大搜索引擎的工作原理就是PageRank。對PageRank影響最大的因素就是鏈接以及搜索引擎如何處理它們。首先你要知道搜索引擎在爬取頁面的時候,是不會處理鏈接的。因此PageRank和爬行是分開進行的。
PageRank是對頁面質(zhì)量和鏈接質(zhì)量的一種測量。頁面PR值的多少是我們無法控制的,搜索引擎會根據(jù)一系列的算法來綜合評估一個網(wǎng)頁的PR值。但是我們可以通過不斷的優(yōu)化來提高頁面PR值升高的可能性。但是以下四點可能會對PageRank產(chǎn)生負面影響:
- 在鏈接中設(shè)置nofollow屬性;
- 在Robot.txt文件中設(shè)置disallow屬性;
- 原始頁面中存在404錯誤;
- 目標頁面中存在404錯誤。
以上詳細介紹了搜索引擎工作的兩大術(shù)語,相信會對你的搜索引擎優(yōu)化工作有所幫助。搜索引擎針對網(wǎng)站綜合排名研制了非常多繁雜的算法,以確保公平公正的排名結(jié)果。我們需要做的就是踏實地做好優(yōu)化工作,搜索引擎便會給予你相應(yīng)的回報。