主頁 > 快速排名 > 常見問題 > 營銷型網(wǎng)站建設(shè)的“蜘蛛抓取”

營銷型網(wǎng)站建設(shè)的“蜘蛛抓取”

POST TIME:2018-12-03 20:08

    蜘蛛,也叫爬蟲,是將互聯(lián)網(wǎng)的信息,抓取并存儲(chǔ)的一種技術(shù)實(shí)現(xiàn)。     搜索引擎的信息收錄,很多不明所以的人會(huì)有很多誤解,以為是付費(fèi)收錄,或者有什么其他特殊的提交技巧,其實(shí)并不是,搜索引擎通過互聯(lián)網(wǎng)一些公開知名的網(wǎng)站,抓取內(nèi)容,并分析其中的鏈接,然后有選擇的抓取鏈接里的內(nèi)容,然后再分析其中的鏈接,以此類推,通過有限的入口,基于彼此鏈接,形成強(qiáng)大的信息抓取能力。       有些搜索引擎本身也有鏈接提交入口,但基本上,不是主要的收錄入口,不過作為創(chuàng)業(yè)者,建議了解一下相關(guān)信息。     百度,google都有站長(zhǎng)平臺(tái)和管理后臺(tái),這里很多內(nèi)容是需要非常非常認(rèn)真的對(duì)待的。反過來說,在這樣的原理下,一個(gè)網(wǎng)站,只有被其他網(wǎng)站所鏈接,才有機(jī)會(huì)被搜索引擎抓取。     以營銷型網(wǎng)站建設(shè)為例,如果這個(gè)網(wǎng)站沒有外部鏈接,或者外部鏈接在搜索引擎中被認(rèn)為是垃圾或無效鏈接,那么搜索引擎可能就不抓取他的頁面。     分析和判斷搜索引擎是否抓取了你的頁面,或者什么時(shí)候抓取你的頁面,只能通過服務(wù)器上的訪問日志來查詢,如果是cdn就比較麻煩。而基于網(wǎng)站嵌入代碼的方式,不論是cnzz,百度統(tǒng)計(jì),還是googleanalytics,都無法獲得蜘蛛抓取的信息,因?yàn)檫@些信息不會(huì)觸發(fā)這些代碼的執(zhí)行。     但關(guān)于蜘蛛的話題,并不只基于鏈接抓取這么簡(jiǎn)單,延伸來說     第一,網(wǎng)站擁有者可以選擇是否允許蜘蛛抓取,有一個(gè)robots.txt的文件是來控制這個(gè)的。     第二,最早抓取是基于網(wǎng)站彼此的鏈接為入口,但實(shí)際上,并不能肯定的說,有可能存在其他抓取入口,     第三,無法被抓取的信息,有些網(wǎng)站的內(nèi)容鏈接,用一些javascript特殊效果完成,比如浮動(dòng)的菜單等等,這種連接,有可能搜索引擎的蜘蛛程序不識(shí)別,當(dāng)然,我只是說有可能,現(xiàn)在搜索引擎比以前聰明,十多年前很多特效鏈接是不識(shí)別的,現(xiàn)在會(huì)好一些。需要登錄,需要注冊(cè)才能訪問的頁面,蜘蛛是無法進(jìn)入的,也就是無法收錄。     很多動(dòng)態(tài)頁面是一個(gè)腳本程序帶參數(shù)體現(xiàn)的,但蜘蛛發(fā)現(xiàn)同一個(gè)腳本有大量參數(shù)的網(wǎng)頁,有時(shí)候會(huì)給該網(wǎng)頁的價(jià)值評(píng)估帶來困擾,蜘蛛可能會(huì)認(rèn)為這個(gè)網(wǎng)頁是重復(fù)頁面,而拒絕收錄。還是那句話,隨著技術(shù)的發(fā)展,蜘蛛對(duì)動(dòng)態(tài)腳本的參數(shù)識(shí)別度有了很大進(jìn)步,現(xiàn)在基本上可以不用考慮這個(gè)問題。     但這個(gè)催生了一個(gè)技術(shù),叫做偽靜態(tài)化,通過對(duì)web服務(wù)端做配置,讓用戶訪問的頁面,url格式看上去是一個(gè)靜態(tài)頁,其實(shí)后面是一個(gè)正則匹配,實(shí)際執(zhí)行的是一個(gè)動(dòng)態(tài)腳本。

標(biāo)簽:九江 東營 烏魯木齊 林芝 鹽城



收縮
  • 微信客服
  • 微信二維碼
  • 電話咨詢

  • 400-1100-266