亚洲无码电影一区二区三区 ,欧洲精品无码一区二区在线观看

主頁 > 知識庫 > 十點防采集黃金建議

十點防采集黃金建議

筆者自己是寫采集器的，所以對網(wǎng)站防采集有一些心得體會。因為是在上班時間，各種方法只是簡單的提及。
    很多防采集方法在施行的時候需要考慮是否影響搜索引擎對網(wǎng)站的抓取，所以先來分析下一般采集器和搜索引擎爬蟲采集有何不同。

    相同點：

    a. 兩者都需要直接抓取到網(wǎng)頁源碼才能有效工作，
    b. 兩者單位時間內(nèi)會多次大量抓取被訪問的網(wǎng)站內(nèi)容；

    c. 宏觀上來講兩者IP都會變動；

    d. 兩者多沒耐心的去破解你對網(wǎng)頁的一些加密(驗證)，比如網(wǎng)頁內(nèi)容通過js文件加密，比如需要輸入驗證碼才能瀏覽內(nèi)容，比如需要登錄才能訪問內(nèi)容等。

    不同點：

    搜索引擎爬蟲先忽略整個網(wǎng)頁源碼腳本和樣式以及html標(biāo)簽代碼，然后對剩下的文字部分進行切詞語法句法分析等一系列的復(fù)雜處理。而采集器一般是通過html標(biāo)簽特點來抓取需要的數(shù)據(jù)，在制作采集規(guī)則時需要填寫目標(biāo)內(nèi)容的開始標(biāo)志何結(jié)束標(biāo)志，這樣就定位了所需要的內(nèi)容；或者采用對特定網(wǎng)頁制作特定的正則表達式，來篩選出需要的內(nèi)容。無論是利用開始結(jié)束標(biāo)志還是正則表達式，都會涉及到html標(biāo)簽(網(wǎng)頁結(jié)構(gòu)分析)。

    然后再來提出一些防采集方法

    1、限制IP地址單位時間的訪問次數(shù)

    分析：沒有哪個常人一秒鐘內(nèi)能訪問相同網(wǎng)站5次，除非是程序訪問，而有這種喜好的，就剩下搜索引擎爬蟲和討厭的采集器了。

    弊端：一刀切，這同樣會阻止搜索引擎對網(wǎng)站的收錄

    適用網(wǎng)站：不太依靠搜索引擎的網(wǎng)站

    采集器會怎么做：減少單位時間的訪問次數(shù)，減低采集效率

    2、屏蔽ip

    分析：通過后臺計數(shù)器，記錄來訪者ip和訪問頻率，人為分析來訪記錄，屏蔽可疑Ip。

    弊端：似乎沒什么弊端，就是站長忙了點

    適用網(wǎng)站：所有網(wǎng)站，且站長能夠知道哪些是google或者百度的機器人

    采集器會怎么做：打游擊戰(zhàn)唄！利用ip代理采集一次換一次，不過會降低采集器的效率和網(wǎng)速(用代理嘛)。

    3、利用js加密網(wǎng)頁內(nèi)容

    Note:這個方法我沒接觸過，只是從別處看來

    分析：不用分析了，搜索引擎爬蟲和采集器通殺

    適用網(wǎng)站：極度討厭搜索引擎和采集器的網(wǎng)站

    采集器會這么做：你那么牛，都豁出去了，他就不來采你了

    4、網(wǎng)頁里隱藏網(wǎng)站版權(quán)或者一些隨機垃圾文字，這些文字風(fēng)格寫在css文件中

    分析：雖然不能防止采集，但是會讓采集后的內(nèi)容充滿了你網(wǎng)站的版權(quán)說明或者一些垃圾文字，因為一般采集器不會同時采集你的css文件，那些文字沒了風(fēng)格，就顯示出來了。

    適用網(wǎng)站：所有網(wǎng)站

    采集器會怎么做：對于版權(quán)文字，好辦，替換掉。對于隨機的垃圾文字，沒辦法，勤快點了。

    5、用戶登錄才能訪問網(wǎng)站內(nèi)容

    分析：搜索引擎爬蟲不會對每個這樣類型的網(wǎng)站設(shè)計登錄程序。聽說采集器可以針對某個網(wǎng)站設(shè)計模擬用戶登錄提交表單行為。

    適用網(wǎng)站：極度討厭搜索引擎，且想阻止大部分采集器的網(wǎng)站

    采集器會怎么做：制作擬用戶登錄提交表單行為的模塊
6、利用腳本語言做分頁(隱藏分頁)

    分析：還是那句，搜索引擎爬蟲不會針對各種網(wǎng)站的隱藏分頁進行分析，這影響搜索引擎對其收錄。但是，采集者在編寫采集規(guī)則時，要分析目標(biāo)網(wǎng)頁代碼，懂點腳本知識的人，就會知道分頁的真實鏈接地址。

    適用網(wǎng)站：對搜索引擎依賴度不高的網(wǎng)站，還有，采集你的人不懂腳本知識

    采集器會怎么做：應(yīng)該說采集者會怎么做，他反正都要分析你的網(wǎng)頁代碼，順便分析你的分頁腳本，花不了多少額外時間。

    7、防盜鏈措施(只允許通過本站頁面連接查看，如：Request.ServerVariables(“HTTP_REFERER“) )

    分析：asp和php可以通過讀取請求的HTTP_REFERER屬性，來判斷該請求是否來自本網(wǎng)站，從而來限制采集器，同樣也限制了搜索引擎爬蟲，嚴(yán)重影響搜索引擎對網(wǎng)站部分防盜鏈內(nèi)容的收錄。

    適用網(wǎng)站：不太考慮搜索引擎收錄的網(wǎng)站

    采集器會怎么做：偽裝HTTP_REFERER嘛，不難。

    8、全flash、圖片或者pdf來呈現(xiàn)網(wǎng)站內(nèi)容

    分析：對搜索引擎爬蟲和采集器支持性不好，這個很多懂點seo的人都知道

    適用網(wǎng)站：媒體設(shè)計類并且不在意搜索引擎收錄的網(wǎng)站

    采集器會怎么做：不采了，走人

    9、網(wǎng)站隨機采用不同模版

    分析：因為采集器是根據(jù)網(wǎng)頁結(jié)構(gòu)來定位所需要的內(nèi)容，一旦先后兩次模版更換，采集規(guī)則就失效，不錯。而且這樣對搜索引擎爬蟲沒影響。

    適用網(wǎng)站：動態(tài)網(wǎng)站，并且不考慮用戶體驗。

    采集器會怎么做：一個網(wǎng)站模版不可能多于10個吧，每個模版弄一個規(guī)則就行了，不同模版采用不同采集規(guī)則。如果多于10個模版了，既然目標(biāo)網(wǎng)站都那么費勁的更換模版，成全他，撤。

    10、采用動態(tài)不規(guī)則的html標(biāo)簽

    分析：這個比較變態(tài)?？紤]到html標(biāo)簽內(nèi)含空格和不含空格效果是一樣的，所以< div >和<   div    >對于頁面顯示效果一樣，但是作為采集器的標(biāo)記就是兩個不同標(biāo)記了。如果次頁面的html標(biāo)簽內(nèi)空格數(shù)隨機，那么
    采集規(guī)則就失效了。但是，這對搜索引擎爬蟲沒多大影響。

    適合網(wǎng)站：所有動態(tài)且不想遵守網(wǎng)頁設(shè)計規(guī)范的網(wǎng)站。

    采集器會怎么做：還是有對策的，現(xiàn)在html cleaner還是很多的，先清理了html標(biāo)簽，然后再寫采集規(guī)則；應(yīng)該用采集規(guī)則前先清理html標(biāo)簽，還是能夠拿到所需數(shù)據(jù)。

總結(jié)：

一旦要同時搜索引擎爬蟲和采集器，這是很讓人無奈的事情，因為搜索引擎第一步就是采集目標(biāo)網(wǎng)頁內(nèi)容，這跟采集器原理一樣，所以很多防止采集的方法同時也阻礙了搜索引擎對網(wǎng)站的收錄，無奈，是吧？以上10條建議雖然不能百分之百防采集，但是幾種方法一起適用已經(jīng)拒絕了一大部分采集器了。

標(biāo)簽：錫林郭勒盟辛集山西邢臺萍鄉(xiāng) 那曲鷹潭來賓

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《十點防采集黃金建議》，本文關(guān)鍵詞十點,防,采集,黃金,建議,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。