關(guān)鍵字描述:教程 簡易 采集 我們 內(nèi)容 網(wǎng)址   如果 作者 V5.3
DedeCms V5.3 采集基礎(chǔ)教程。
首先說明一下的是,第一次寫這種教程,有不當?shù)牡胤秸埓蠹野?br />
進入正文:
采集過程其實就是copy的過程,只不過,我們copy的是顯示結(jié)果,而采集主要針對源碼進行。
第1步,建立節(jié)點
我們以圖片中的網(wǎng)址為例,目標頁面編碼一定要選對,不然采集回來的內(nèi)容會亂碼,如果你采集回來的內(nèi)容有亂碼,首先要考慮的是編碼問題,這里我們選utf-8,怎么知道別人的編碼是什么呢?看看源碼<content="text/html; charset=utf-8" />就會明白了。
“區(qū)域匹配模式”我選擇是的正則表達式,因為如果選“字符串”,將有一些廣告代碼過濾不掉。
第2步:文章網(wǎng)址匹配規(guī)則。 生活Tips歡迎您(http://ez4life.cn)
這個就要看采集網(wǎng)站的源代碼(圖2)了,找到一個包含所有要采集內(nèi)容網(wǎng)址的代碼(要唯一,建議多使用Ctrl F),這樣我們就確定了要采集區(qū)域的網(wǎng)址,不放心就測試一下。
圖2
最后結(jié)果如圖3
圖3
第3步:在前面2步的基礎(chǔ)上我們已經(jīng)找到了需要采集的網(wǎng)址,下面來看具體的采集內(nèi)容。
在內(nèi)容配置選項中,如果你比較懶,可以象我一樣不要選那么多的選項,只選擇你感興趣的部分,如文章標題,作者及來源等,在dede cmsV5.3中已經(jīng)把dede V5.1的規(guī)則進行了改造,易于初學者使用了,其基本形式是標簽和內(nèi)容放在一塊的,V5.1要分開始標簽和結(jié)束標簽,其實原理都是一樣的。
這里講講自定義作者的問題。V5.3以前的版本采集時可以用@me="作者“的形式自定義作者,而v5.3只能用替換的方法實現(xiàn)了,當然也有不便之處,這樣我們就確定了基本的東西了。
第4步:便是我們要的內(nèi)容核心了,這里會用到比較多的過濾規(guī)則,幸好dede V5.3給我們準備了一些常用的,不過,如果你想采集比較復雜的網(wǎng)頁那還得學會一些常用的正則表達式了。這樣我們就基本學會了dedecms V5.3的采集,是不是有點簡單?
俠客站長站 (www. )
第5步:導出內(nèi)容,這個我就不多講了。