大家好,國慶節(jié)過了,祝大家節(jié)日快樂,特別要祝是守候在群的一線的光棍們有情人可度,有夢想可求。今天講一下網(wǎng)站數(shù)據(jù)的采集及實踐。 誰都知道,以前建個站都是辛辛苦苦地一個代碼一個代碼敲出來的, 那時的站長真是苦工中的苦工,后來就出來的許多的網(wǎng)站模板, 再后來出現(xiàn)了CMS即content manager system(內(nèi)容管理系統(tǒng)),如動易、DEDE、phmcms等等,這種大大方便了網(wǎng)站的制作和內(nèi)容的錄入。 無疑一個網(wǎng)站的內(nèi)容豐富性和趣味性是吸引用戶的地方,所以圖片站總是很火,特別是美女圖片(meinv38.com),如果想做一個站,復(fù)制粘貼肯定是不行的 一夜之間擁有幾萬張圖片幾萬篇文章才是我們的夢想。那么實現(xiàn)的方式就是數(shù)據(jù)采集。 今天僅說下數(shù)據(jù)采集的一些基礎(chǔ)東西,高手飄過,菜鳥認真的學(xué),權(quán)當入門。
首先是內(nèi)容的選擇
網(wǎng)上世界千奇百怪,各個站長都千方百計地研究如何吸引眼珠。這做站如同做文章,不可能把所有的東西都收羅進來,要懂得取舍 再好的內(nèi)容與你的網(wǎng)站主題也要符合,即使垃圾站(即無原創(chuàng)內(nèi)容大部分是采集他人內(nèi)容的站)初期階段可能不予計較,但時間長了,垃圾站的目標仍是把垃圾做成精品,否則就死定了。
如何選擇好的內(nèi)容,我認為要做好以下幾個方面:
①選擇內(nèi)容要你的站的主題符合的比較好。
比如做軸承站的可以采集軸承新聞、軸承技術(shù)什么的,也可以大一點采集機械制造方面的,但不要太偏離了,就不要選擇美女圖片這樣的內(nèi)容,雖然這類內(nèi)容吸引人,但一方面給人造成的感覺不專業(yè),另一方面也容易被百度K。 如果你覺得非采這個不可。可以搞個二級域名的方式專門建個相對獨立的站,如pic.xxx.com,和主站相對脫節(jié)。 字串7
②采集的內(nèi)容的格式盡量統(tǒng)一。
盡量選擇些精品網(wǎng)站進行采集,采集內(nèi)容的風(fēng)格和格式要盡量統(tǒng)一,否則會顯得不專業(yè),顯得太散亂,影響客戶的訪問情緒。
③不要一次性采集太多。在建站初期各個欄目適當采集幾百條墊底就行了然后每天都采集一些,否則初期太多的流量對一個新站來說也無太大裨益,而且很危險,容易被百度K站。
④采集內(nèi)容要選好關(guān)鍵字,做好網(wǎng)站的tag,不要見內(nèi)容就收,否則真成垃圾了 查關(guān)鍵字在百度中的排位情況,是不是有可能沖擊前幾位,有一二個關(guān)鍵字就夠了,這個是流量的保證,就是網(wǎng)站的SEO的一部分,最近才學(xué)的,不太懂哈。
⑤為避免百度K站,選擇不同編碼的站是個不錯的建議,比如可以采集big5的繁體站轉(zhuǎn)化成自己的gbk的,有能力的甚至可以通過機器翻譯把英文的變成中文站,這樣都是原創(chuàng)性的了,被百度K的可能性就是0。 我有一個客戶把百度知識的東西通過翻譯引擎直接做了個英文知識站。 招數(shù)千變,唯一的目標是有安全的流量。
⑥要采集的源站要有持續(xù)更新的能力,盡量不要采死站,呵呵, 一方面能經(jīng)常采集,另一方面這樣的站的信息有時效性,可保證你采集的內(nèi)容新鮮。
其次講下采集工具的選擇
采集工具不下幾十種,如何選擇適當?shù)墓ぞ咭锤魑坏膼酆茫鋵崒W(xué)好一二種采集工具就可以了。 有cms系統(tǒng)自帶的如帝國cms自帶的采集, 有專門的采集的軟件如火車頭、小蜜蜂、貼探小黑、守望、三人行、ET等等,下面簡單介紹一下:
①火車頭采集軟件,這個是最早的采集的軟件,也是大名鼎鼎的采集軟件, 軟件安裝有點麻煩,軟件采用.net 架構(gòu),不過也容易搞定。 字串8 軟件的優(yōu)點很多,規(guī)則制訂也相對簡單,可以制訂整個站的規(guī)則,也可以本地入庫同步發(fā)布到網(wǎng)站。 缺點是發(fā)布模塊不容易找,而且難于開發(fā),對新手來說很難發(fā)布成功。 因為作者近半年都沒更新,bug比較多,最新的V3.2快出來了,還是值得期待的。
②小蜜蜂采集,這個可以和他的BBWPS--小蜜蜂商務(wù)網(wǎng)站門戶系統(tǒng)整合使用,也可以單獨用,需要本地裝php環(huán)境,也半年沒更新了 不過對國外的一些cms如joomla支持,還是不錯的。剛才有問做英文站采集,用這個也是可以的
③貼探小黑 這個是收費的采集器,對新手來說還比較好用, 但規(guī)則制訂感覺好別扭,比較好的解決了發(fā)布的問題,速度也很快,最新的4.0出來后作者可能會停止開發(fā)了 這個對論壇采集比較好,對網(wǎng)站的cms還不支持,還有不能多頁采集,缺陷比較多。
④三人行 這個軟件還是下了很多功夫的,界面有些粗糙,感覺不到位,有些作弊功能很不錯,比如論壇同時在線、批量發(fā)貼等等 呵呵,平時很少用。由于作者的功利因素有很多不同名字的軟件版本,功能基本一樣,有些混亂。
⑤守望。這也是php的平臺開發(fā)的,可直接安裝在網(wǎng)站服務(wù)器上,直接采集到服務(wù)器上,這個比較好,免除了數(shù)據(jù)上傳時間。
⑥ET。這個可謂后起之秀,比較好用,制訂規(guī)則也簡單靈活,但有的地方還不成熟。支持的系統(tǒng)還不多,不過潛力很大,新出的模擬提交,基本上絕大部分類型的采集都可做了。
以上是采集工具的介紹,哪種好用要看各位的偏好了。
采集用到的工具還包括抓包分析工具,如sniffer,wsockexpert等。
ASP的采集器
源代碼分析工具,對于地址隱藏的網(wǎng)頁用遨游自帶的viewpage也挺好, 好象火車頭3.2附帶的新的源代碼分析工具放出來了,對一些難采集的網(wǎng)站可以試試。
一般大家喜歡用2000/xp自帶的記事本查看源代碼,建議升級到vistia的記事本,支持繁體和框架,絕對好用更深一步的還要學(xué)習(xí)破解ajax,就里就不介紹了。 第三個方面我講采集數(shù)據(jù)的加工。數(shù)據(jù)采集來固然可以直接發(fā)布到網(wǎng)上去,但經(jīng)過加工效果會更好。 數(shù)據(jù)的加工包括去掉別人的廣告,換上自己的廣告,過濾掉一些外站的鏈接
數(shù)據(jù)格式的簡繁轉(zhuǎn)換及編碼轉(zhuǎn)換
網(wǎng)站優(yōu)化SEO處理等等 這里要注意的問題是別人廣告一定要過濾干凈,否則自己得不到廣告費,別人的GG帳戶也不安全,反而也害了別人。 還有SEO處理不要過份,適可而止,否則只會起反作用。 更高層次的采集是把采集內(nèi)容變成自己的原創(chuàng),這個需要高手自編程序?qū)?shù)據(jù)進行處理(qq2030.com)
目前為止還沒見過這樣的工具,不過有《瘋狂作文》這樣的軟件出來,相信也不是做不到。
第四個方面是后續(xù)維護
這個后續(xù)維護也可以翻陳出新,把已采集的數(shù)據(jù)進行再加工,添加新的關(guān)鍵字,新瓶也可以裝舊酒。
通過我對幾十個客戶的采集教程,談下我的體會。 采集內(nèi)容要關(guān)注一定熱度的內(nèi)容,比如QQ空間、QQ表情這些流量是很猛的,還有私服發(fā)布站、游戲類型的網(wǎng)站, 有針對性群體的網(wǎng)站也比較好做。我一個客戶一個月前采集的女性論壇站,數(shù)據(jù)有4萬,現(xiàn)在基本在線在150人左右,日發(fā)新貼140篇。還有一個臺灣客戶2個月前采集的verycd電影站,現(xiàn)在日增新注冊用戶50左右,可見垃圾站還是有做頭的。大體內(nèi)容就講這些了,有什么需要了解的請朋友們提出來!