問題現(xiàn)象:
點擊進入鏈接,除了原網(wǎng)頁,分別出現(xiàn):
http://www.stcash.com/5273/comment-page-1
http://www.stcash.com/5273?replytocom=1989
前面一篇文章居然出現(xiàn)一個三級目錄,后面一篇文章又類似于動態(tài)網(wǎng)頁網(wǎng)址。我文章中是沒有這兩個鏈接地址的,查看網(wǎng)頁源碼,看出了一點端倪。
原因分析:
我發(fā)現(xiàn)了這兩個?replytocom=1989網(wǎng)址的來源:文章評論鏈接
四個評論剛好對應四個replytocom,百度蜘蛛可能有一定的智能,四個replytocom網(wǎng)址中只收錄了一個,但是又不夠智能,沒有區(qū)分出來評論鏈接和原文鏈接對應的文章內容是相同的。
comment-page-1網(wǎng)址同樣是來源于評論鏈接,comment-page-1代表著評論頁面的第一頁。如果我的評論比較多,比如說有1000條評論,那么一頁肯定是顯示不下去的,就會出現(xiàn)comment-page-2,comment-page-3......這就是評論分頁功能,這個功能本質上是防止評論過多時,網(wǎng)頁會被拉的很長,導致網(wǎng)頁加載速度慢和用戶體驗差。但是不巧的是,百度蜘蛛依然不能識別出來這和原文
解決方法:
1、對于comment-page-1重復收錄,有兩種方式解決
1)在wordpress后臺關閉評論分頁
2)修改robots.txt,加上一句項目的代碼
Disallow: /comment-page-
robots.txt在網(wǎng)站根目錄,使用 網(wǎng)址/robots.tx就可以看到設置的結果了。如果根目錄下沒有這個文件
wp-includes/funtion中有這么一段代碼:
- $output = "User-agent: *\n";
- $public = get_option( 'blog_public' );
- if ( '0' == $public ) {
- $output .= "Disallow: /\n";
- } else {
- $site_url = parse_url( site_url() );
- $path = ( !emptyempty( $site_url['path'] ) ) ? $site_url['path'] : '';
- $output .= "Disallow: $path/wp-admin/\n";
- }
在 $output .= "Disallow: $path/wp-admin/\n"; 后面增加一句$output .= "Disallow: $path/comment-page-\n";
2、對于replytocom重復收錄,設置robots.txt文件
Disallow:/*?replytocom=
或者是加上對于包含replytocom的所有鏈接都加上nofollow鏈接
- add_filter('comment_reply_link', 'add_nofollow', 420, 4);
- function add_nofollow($link, $args, $comment, $post){
- return str_replace("href=", "rel='nofollow' href=", $link);
- }
以上就是對文章被百度重復收錄的原因及解決方法全部內容的介紹,更多內容請繼續(xù)關注腳本之家!