1、搜索引擎能不能找到網(wǎng)頁。
1)要讓搜搜引擎發(fā)現(xiàn)網(wǎng)站首頁,網(wǎng)站推廣就必須有良好的外部鏈接鏈接到首頁,就找到了首頁,然后蜘蛛會(huì)沿著鏈接爬的更深。
讓蜘蛛通過簡(jiǎn)單的html頁面的鏈接到達(dá),javascript鏈接,flash鏈接都是蜘蛛的陷阱。這點(diǎn)要注意。
2)找到網(wǎng)頁后能不能抓去內(nèi)容。
被發(fā)現(xiàn)的蜘蛛是可以被爬取的,數(shù)據(jù)庫動(dòng)態(tài)生成,帶過很多的參數(shù)url、sessionID、整個(gè)頁面都是flash、框架結(jié)構(gòu)、大量的轉(zhuǎn)向,和大量的復(fù)制內(nèi)容都可能把蜘蛛攔截在門外。這也也是要注意的
2、flash
1)在網(wǎng)頁某一個(gè)部分使用flash來增強(qiáng)視覺效果很正常網(wǎng)絡(luò)推廣,比如現(xiàn)在很多的flash廣告、圖標(biāo)等。但是這是一個(gè)html頁面的一部分。不會(huì)有太大的影響
2)但是有的網(wǎng)站就是一個(gè)很大的flash文件,這就構(gòu)成了蜘蛛的陷阱,這時(shí)候蜘蛛爬取的只有一個(gè)flash鏈接,沒有其他的內(nèi)容,所以這點(diǎn)盡量要避免。
3、sessionID
1)有些網(wǎng)站使用sessionID(會(huì)話ID)跟蹤用戶的訪問,用戶的沒一次訪問都會(huì)生成一個(gè)獨(dú)立的ID,然后加在url里,這是蜘蛛每一次抓取網(wǎng)站都會(huì)把蜘蛛當(dāng)作一個(gè)新的用戶網(wǎng)絡(luò)營(yíng)銷,造成蜘蛛不能正常爬取,這也是蜘蛛的一大陷阱。
2)通常建議跟蹤用戶訪問應(yīng)該使用cookies而不要生存sessionID 。
4、各種的跳轉(zhuǎn)
1)除了大家熟悉的301轉(zhuǎn)向之外,其他的轉(zhuǎn)向?qū)λ阉髦┲攵急容^敏感的,比如302暫時(shí)轉(zhuǎn)向,javascript轉(zhuǎn)向,flash轉(zhuǎn)向,meta refresh跳轉(zhuǎn),所以建議大家不要做其他不利于網(wǎng)頁的轉(zhuǎn)向,301也包括,不到萬不得已的時(shí)候也不要用301轉(zhuǎn)向。這是個(gè)建議。謝謝閱讀,希望能幫到大家,請(qǐng)繼續(xù)關(guān)注腳本之家,我們會(huì)努力分享更多優(yōu)秀的文章。