添加采集規(guī)則
規(guī)則說(shuō)明
系統(tǒng)默認(rèn)變量:<{articleid}> - 文章序號(hào),<{chapterid}> - 章節(jié)序號(hào), <{subarticleid}> - 文章子序號(hào), <{subchapterid}> - 章節(jié)子序號(hào)。
系統(tǒng)標(biāo)簽 * 可以替代任意字符串。
系統(tǒng)標(biāo)簽 ! 可以替代除了<和>以外的任意字符串。
系統(tǒng)標(biāo)簽 ~ 可以替代除了<>'"以外的任意字符串。
系統(tǒng)標(biāo)簽 ^ 可以替代除了數(shù)字和<>之外字符串。
系統(tǒng)標(biāo)簽 $ 可以替代數(shù)字字符串。
采集規(guī)則中,需要獲取的內(nèi)容部分用四個(gè)以上系統(tǒng)標(biāo)簽代替,如 !!!!
基本設(shè)置
網(wǎng)站標(biāo)識(shí)configs\article\collectsite.php中所添寫(xiě)的標(biāo)識(shí),可隨便填寫(xiě),一般為所采集站點(diǎn)的域名簡(jiǎn)寫(xiě),以和其他規(guī)則區(qū)分。例:feiku
網(wǎng)站名稱所采集站的名稱。例:飛庫(kù)
網(wǎng)站地址所采集站的地址。例:http://www.feiku.com
文章子序號(hào)運(yùn)算方式不是必須添寫(xiě)的,我這里就留空了。
支持使用<{articleid}>標(biāo)記的四則運(yùn)算(+加,-減,*乘,/除,%取余)
章節(jié)子序號(hào)運(yùn)算方式不是必須添寫(xiě)的,我這里就留空了。(誰(shuí)知道他一個(gè)文件夾放多少書(shū)啊,他不按規(guī)則放,我不是采集不到 )
支持使用<{articleid}>標(biāo)記的四則運(yùn)算(+加,-減,*乘,/除,%取余)
代理服務(wù)器地址 不使用代理服務(wù)器請(qǐng)留空
代理服務(wù)器端口
現(xiàn)有章節(jié)無(wú)法對(duì)應(yīng)時(shí)候是否全部清空重新采集 是 否 根據(jù)自己需要選擇
是否默認(rèn)把采集到的文章設(shè)置為全本 是 否 根據(jù)自己需要選擇,如果選擇"是"無(wú)論文章是連載還是完結(jié),你站上都顯示全本,建議選“否”
發(fā)送HTTP_REFERER標(biāo)志,用于突破防采集設(shè)置 是 否 默認(rèn)選“是”,不知道什么用,我選“是”先突破下再說(shuō)
對(duì)方網(wǎng)頁(yè)編碼 (自動(dòng)檢測(cè) GB2312 UTF8 BIG5)默認(rèn)“自動(dòng)檢測(cè)” 編碼與本站不同將自動(dòng)嘗試轉(zhuǎn)換
文章信息頁(yè)面采集規(guī)則
文章信息頁(yè)面地址書(shū)籍信息頁(yè)網(wǎng)址,書(shū)籍ID用<{articleid}>代替。例:
http://feiku.com/Book/<{articleid}>/Index.html
文章標(biāo)題采集規(guī)則要求會(huì)查看網(wǎng)頁(yè)的源文件啊 ,不會(huì)的可以停止了 .查看下信息頁(yè)面的源文件,然后找到文章標(biāo)題在源文件的什么位置(我們是以飛庫(kù)為例的,就是章節(jié)信息頁(yè)面那個(gè)《文章標(biāo)題》在源文件的位置).這里以《我的美女大小姐》這個(gè)為例,找到標(biāo)題附近的代碼是<div id="CrBookTitle"><span class="booktitle">《我的美女大小姐》</span></div>把上面代碼復(fù)制到文章標(biāo)題采集規(guī)則的那個(gè)框里,然后把我的美女大小姐這個(gè)真實(shí)的標(biāo)題替換為!!!!當(dāng)然也可以替換成其他的替換符號(hào)比如****不過(guò)講究的是在能表達(dá)意思的情況下范圍越小越好(習(xí)慣問(wèn)題,這里當(dāng)然只能采集到文章標(biāo)題了,但是其他的一些采集的時(shí)候就有你不想要的東西).
作者采集規(guī)則<li class="l6"><a href="/Author/WB/144238.html">李興禹</a></li>這里的李興禹是要采集的內(nèi)容,用!!!!代替不過(guò)144238只對(duì)這個(gè)文章有用,其他文章有其他的數(shù)字,所以用任意數(shù)字串$代替.所以作者采集規(guī)則就是
<li class="l6"><a href="/Author/WB/$.html">!!!!</a></li>
文章類型采集規(guī)則 <li class="l2"><a href="/Book/LN/133.html">都市</a></li>由上面兩個(gè)采集規(guī)則的寫(xiě)法不難看出這里的規(guī)則是 <li class="l2"><a href="/Book/LN/$.html">!!!!</a></li>
文章類型對(duì)應(yīng)關(guān)系這個(gè)就自己寫(xiě)吧,呵呵,給出飛庫(kù)的對(duì)應(yīng)關(guān)系,大家參考下.玄幻=>1||奇幻=>1||武俠=>2||仙俠=>2||言情=>3||都市=>3||科幻=>7||靈異=>8||游戲=>6||競(jìng)技=>6||歷史=>4||軍事=>4||美文=>10||同人=>9||傳記=>10||名著=>10||札記=>10||笑話=>10||外國(guó)=>10||古典=>10||少兒=>10||偵探=>5||經(jīng)管=>10||時(shí)尚=>10||英語(yǔ)=>10||電腦=>10||學(xué)習(xí)=>10||法律=>10||其它=>10
對(duì)方類型名稱和本站類型序號(hào)的用“=>”分割,兩個(gè)類型之間用“||”分割,類型名稱“default”標(biāo)識(shí)默認(rèn)的類型對(duì)應(yīng)關(guān)系
本站類型和序號(hào)對(duì)應(yīng)關(guān)系如下:
玄幻魔法=>1||武俠修真=>2||都市言情=>3||歷史軍事=>4||偵探推理=>5||網(wǎng)游動(dòng)漫=>6||科幻小說(shuō)=>7||恐怖靈異=>8||散文詩(shī)詞=>9||其他類型=>10
關(guān)鍵字采集規(guī)則 找到關(guān)鍵字附近的代碼主角檢索關(guān)鍵字 —— 我的美女 李興禹 美女 都市 <br />這里的"我的美女 李興禹 美女 都市"用****代替.結(jié)果規(guī)則是主角檢索關(guān)鍵字 ——****<br />
內(nèi)容簡(jiǎn)介采集規(guī)則 <div id="CrbsSum"> ‘大‘小姐和大‘小‘姐,你們別折騰我了行不?我求你們了~~!<br> 擁有億萬(wàn)身家的劉星不愿意朱門(mén)酒肉臭和勾心斗角的生活,放棄了家族的大公司,而是選擇在一個(gè)小公司當(dāng)一個(gè)普普通通的白領(lǐng)。<br> 在餐廳的一次英雄救美使他結(jié)識(shí)了一位大美女,而這個(gè)美女竟然是劉星所在公司在上??偣纠习宓呐畠?,換句話來(lái)說(shuō)也就是他的大小姐。<br> 但是表面上很美看似優(yōu)雅的大小姐卻有不為人知的一面,真是要人命呀!<br> 給我當(dāng)保姆?大小姐,你開(kāi)什么玩笑,你什么都不會(huì)做,還給我當(dāng)保姆?<br> 老板有兩個(gè)女兒?這么說(shuō)自己白天刁難的那美女是二小姐?<br> 恩?什么?你也決定住在這里???!別折騰我了~~!一個(gè)就夠我受的了,又來(lái)一個(gè)??烧媸恰?‘小'姐呀!<br> ‘大'小姐外表優(yōu)雅溫柔但卻十分迷糊大條,大‘小'姐外表冰艷絕倫但卻十分熱辣潑婦,而且兩姐妹從小到大水火不容,這回都住在我家,這家……可真是熱鬧了!<br> 想泡美女的卻被‘大'‘小'姐給‘泡'了!啊~~!還讓不讓人活了~~!<br /></div>
<div id="CrbsRole">根據(jù)上面說(shuō)的,結(jié)果規(guī)則是
<div id="CrbsSum">****<br /></div>
<div id="CrbsRole">
注意:源文件里面有的代碼換行什么的,你復(fù)制進(jìn)去的時(shí)候除了用替換符替換要采集的內(nèi)容外,不要改格式,別看他換行了,你給退幾各和前面的連接到一起.
封面圖片采集規(guī)則 <div id="CrbtlBookImg"><img src="/UploadPhoto/Book/BookImg/144/144238.jpg" width="100" height="125" /></div>結(jié)果規(guī)則是<div id="CrbtlBookImg"><img src="!!!!" width="100" height="125" /></div>這里width="100" height="125"也可以弄成width="$" height="$"不過(guò)如果采集站封面圖片都一樣大小就不用理了.找封面圖片在源文件里的位置的時(shí)候,可以到信息頁(yè)面查看圖片的屬性,看圖片什么名字,然后到源文件里搜索.
過(guò)濾的封面圖片找到個(gè)沒(méi)有封面圖片的文章,然后看下img src="和"里面是什么,給寫(xiě)上就可以了,這里是/img/noimg.gif
目錄頁(yè)面鏈接采集規(guī)則由于上面子序號(hào)我們都沒(méi)有寫(xiě),這里我們利用這個(gè)規(guī)則采集子序號(hào)就可以了.在文章信息頁(yè)面的源文件里找到目錄頁(yè)面連接附近的代碼(一般都在點(diǎn)擊閱讀附近,飛庫(kù)里是【點(diǎn)擊閱讀】在源文件里附近的代碼)
【<a href="/html/book/168/144238/List.shtm" ><font color="#CC0000">點(diǎn)擊閱讀</font></a>】
這里要采集的是內(nèi)容168而144238可以當(dāng)任意數(shù)字代替,所以結(jié)果規(guī)則是
【<a href="/html/book/$$$$/$/List.shtm" ><font color="#CC0000">點(diǎn)擊閱讀</font></a>】
本規(guī)則采集到的內(nèi)容將作為標(biāo)記<{indexlink}>(下面出現(xiàn)的子序號(hào)就可以用這個(gè)代替了,呵呵)使用,可以應(yīng)用在下面的“文章目錄頁(yè)面地址”里面
全文標(biāo)記采集規(guī)則需要找個(gè)全本作品了, 在信息頁(yè)面源文件里找到寫(xiě)作進(jìn)程附近代碼(帶上進(jìn)程"完接")
<li class="l3">寫(xiě)作進(jìn)程</li>
<li class="l4">完結(jié)</li>
寫(xiě)作進(jìn)程用!!!!代替,所以結(jié)果規(guī)則是
<li class="l3">!!!!</li>
<li class="l4">完結(jié)</li>
本規(guī)則不是采集內(nèi)容保存,而是匹配就認(rèn)為是全本,不匹配則認(rèn)為是連載
文章目錄頁(yè)面采集規(guī)則
文章目錄頁(yè)面地址就是目錄頁(yè)面的地址
http://feiku.com/html/book/168/144238/List.shtm
不過(guò)里面的168文章子序號(hào)用上面的<{indexlink}>代替144238文章序號(hào)用<{articleid}>代替,結(jié)果規(guī)則是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/List.shtm
分卷名稱采集規(guī)則查看目錄頁(yè)面的源文件,找到分卷名稱附近代碼<div id="NclassTitle">正文 里面的正文是我們要采集的東西,用!!!!代替,結(jié)果規(guī)則是<div id="NclassTitle">!!!!
章節(jié)名稱采集規(guī)則找到章節(jié)名稱附近代碼 更新字?jǐn)?shù):3402">第一章 大象~~大象~~!</a></li>這里第一章 大象~~大象~~!是要采集的內(nèi)容用!!!!或者****代替3402是任意數(shù)字用$代替,結(jié)果規(guī)則是更新字?jǐn)?shù)">!!!!</a></li>
章節(jié)序號(hào)采集規(guī)則找到章節(jié)序號(hào)附近代碼
<li><a href="3320510.shtm" title="更新時(shí)間:
其中3320510是我們要采集的章節(jié)序號(hào)用$$$$代替,結(jié)果規(guī)則是
<li><a href="$$$$.shtm" title="更新時(shí)間
章節(jié)內(nèi)容頁(yè)面采集規(guī)則
章節(jié)內(nèi)容頁(yè)面地址
http://feiku.com/html/book/168/144238/3320510.shtm
里面的168文章子序號(hào)用上面的<{indexlink}>代替144238文章序號(hào)用<{articleid}>代替3320510章節(jié)序號(hào)用<{chapterid}>代替,結(jié)果規(guī)則是
http://www.feiku.com/Html/Book/<{indexlink}>/<{articleid}>/<{chapterid}>.shtm
章節(jié)內(nèi)容采集規(guī)則章節(jié)內(nèi)容附近代碼,呵呵太大了啊,我就偷懶了.
</div>
<div id="BookText">章節(jié)內(nèi)容
</div>
上面的<div id="BookText">里面有的書(shū)籍章節(jié)內(nèi)容代碼里面不是BookText比如有的是<div id="ssmmkkg">但是
</div>
<div id="
是都有的,所以就用他了,章節(jié)內(nèi)容用****代替,結(jié)果規(guī)則如下,大家自己進(jìn)修吧
</div>
<div id="****</div>
章節(jié)內(nèi)容過(guò)濾規(guī)則上面兩端代碼里面所有你不想要的內(nèi)容都可以寫(xiě)在這里.這里是我去掉的一些,大家可以根據(jù)需要自己弄
<a href="/User/Messages.aspx?to=badmin&title=
[飛庫(kù)網(wǎng) http://www.feiku.com]
http://www.feiku.com
飛庫(kù)網(wǎng)
http://www.cmfu.com
BookText">
cmfu.com
可多個(gè)過(guò)濾規(guī)則,每個(gè)規(guī)則必須一行,可使用替換標(biāo)簽,如:<div>!</div>
是否采集圖片內(nèi)容到本地 是 否 根據(jù)需要自己選擇(下面都自己選擇吧,累死了,閃了 )
采集到本地的圖片處理,需要GD庫(kù)支持
是否啟用圖片處理 是 否 啟用圖片處理對(duì)采集速度有一定影響
采集圖片是否加上水印 是 否
加水印的設(shè)置在本模塊的參數(shù)設(shè)置里面,于手工上傳圖片加水印方式相同。
采集圖片背景顏色
這里留空則系統(tǒng)自動(dòng)判斷
按區(qū)域抹去原有圖片水印
按照?qǐng)D片內(nèi)的矩形坐標(biāo),抹去該區(qū)域內(nèi)容。一個(gè)矩形用四個(gè)數(shù)值表示(用“,”分隔),分別是矩形左上角X,Y和左下角X,Y。當(dāng)X,Y大于0時(shí)候表示從圖片左上角開(kāi)始加多少像素,當(dāng)X,Y小于0時(shí)候表示從圖片右下角開(kāi)始減多少像素。多個(gè)區(qū)域用“|”分割。
例如:本項(xiàng)設(shè)置成“1,1,100,50|-100,-50,-1,-1”,分別表示左上角和右下角100*50的矩形區(qū)域。
按照顏色抹去原有圖片水印
一般水印顏色與圖片背景和內(nèi)容顏色都不同,可以設(shè)置多個(gè)水印顏色全部抹去,用“|”分隔,如“#FAFAFA|#FF0000|#00FF00”