主頁 > 網(wǎng)站建設(shè) > 建站知識 > dede3.1分頁文字采集過濾規(guī)則詳說(圖文教程)續(xù)四

dede3.1分頁文字采集過濾規(guī)則詳說(圖文教程)續(xù)四

POST TIME:2021-05-20 00:15

至此,分頁內(nèi)容匹配進行完畢。

文章內(nèi)容匹配、分頁內(nèi)容匹配都進行完后,最后就只有“過濾”了,包括分頁區(qū)域過濾和文章內(nèi)容過濾。據(jù)本人的感覺,上面的兩個規(guī)則都好寫,只要找到全部鏈接中的“唯一性”代碼就搞定,但過濾規(guī)則里卻是欲說還休,道不盡的無窮奧妙……哈哈,感覺就是這樣。尤其如我一般的新手,對“正則”這個東西如臨天書,找了幾個正則方面的軟件吧仍覺無從下手,就只好依樣畫樣,照貓畫虎,依葫蘆畫瓢地摸索了。

好了,閑話了。也累了,聽聽《加州旅館》吧,在這:加州旅館_老鷹樂隊94現(xiàn)場放松下吧。

你一眼看出來了過濾規(guī)則怎么寫么,反正我是沒能看得出來,沒辦法,新手就是新手呀。不管它,那就依照原范例的分頁過濾規(guī)則寫個規(guī)則試試看看結(jié)果吧:

  復制代碼 代碼如下:

  {dede:trim}<tdalign='center'height='30'>(.*)頁次{/dede:trim}


采集一下:

=700) window.open('/upload/200743213556612.gif');" src="" onload="if(this.width>'700')this.width='700';" border=0>
分頁成功了,但廢碼多,還得改!
看下多余的代碼特征,好象是過濾范圍不夠,后面的很多內(nèi)容都要過濾掉。那好,把過濾區(qū)域再往后移,直接移至描紅部分吧(其實我在改過濾規(guī)則的時候,改了好幾次,這里就一次到位吧,不耽誤朋友們的時間了):

=700) window.open('/upload/200743213556171.gif');" src="" onload="if(this.width>'700')this.width='700';" border=0>
寫個完整的分頁過濾規(guī)則:

  復制代碼 代碼如下:

  {dede:trim}<tdalign='center'height='30'>(.*)</option></select></td>{/dede:trim}


再采集下,看看結(jié)果:

=700) window.open('/upload/200743213556537.gif');" src="" onload="if(this.width>'700')this.width='700';" border=0>

好了,分頁成功,無多余代碼。至此,全部主要的代碼部分完成。
結(jié)果在這里:
有分頁的:黨員干部作風整頓剖析材料
無分頁的: 文藝部工作計劃
寫一個完成的站點規(guī)則:

  復制代碼 代碼如下:

  {!--節(jié)點基本信息--}

{dede:itemname='天水_工作計劃_1頁'
imgurl='/upimg'imgdir='../upimg'language='gb2312'typeid='1'macthtype='string'}
{/dede:item}

{!--采集列表獲取規(guī)則--}

{dede:listsource='var'sourcetype='list'
varstart=''varend=''}
{dede:urlvalue=''}{/dede:url}
{dede:need}Gzjh/2007-{/dede:need}
{dede:cannot}Gzjh/2007-1{/dede:cannot}
{dede:linkarea}[var:區(qū)域]{/dede:linkarea}
{/dede:list}

{!--網(wǎng)頁內(nèi)容獲取規(guī)則--}

{dede:art}
{dede:sppagesptype='full'}<tdalign='center'height='30'>首頁上頁[var:分頁區(qū)域]頁次{/dede:sppage}

{dede:notefield='dede_archives.title'value='[var:內(nèi)容]'comment='文章標題'
isunit=''isdown=''}

{dede:match}<title>[var:內(nèi)容]--天水搜索</title>{/dede:match}

{dede:function}{/dede:function}

{/dede:note}

{dede:notefield='dede_archives.sortrank'value='[var:內(nèi)容]'comment='排序級別'
isunit=''isdown=''}

{dede:match}{/dede:match}

{dede:function}@me=time();{/dede:function}

{/dede:note}

{dede:notefield='dede_archives.writer'value='[var:內(nèi)容]'comment='文章作者'
isunit=''isdown=''}

{dede:match}{/dede:match}

{dede:function}{/dede:function}

{/dede:note}

{dede:notefield='dede_archives.litpic'value='[var:內(nèi)容]'comment='縮略圖'
isunit=''isdown=''}

{dede:match}{/dede:match}

{dede:function}@me=@litpic;{/dede:function}

{/dede:note}

{dede:notefield='dede_archives.pubdate'value='[var:內(nèi)容]'comment='發(fā)布時間'
isunit=''isdown=''}

{dede:match}{/dede:match}

{dede:function}if(@me!="")@me=GetMkTime(@me);
else@me=time();{/dede:function}

{/dede:note}

{dede:notefield='dede_archives.senddate'value='[var:內(nèi)容]'comment='錄入時間'
isunit=''isdown=''}

{dede:match}{/dede:match}

{dede:function}@me=time();{/dede:function}

{/dede:note}

{dede:notefield='dede_addonarticle.body'value='[var:內(nèi)容]'comment='文章內(nèi)容'
isunit='1'isdown='1'}

{dede:match}</TR>
<TR>
<TDheight="8"></TD>
</TR>
<TR>
<TDvalign="top"class=Connet><p>[var:內(nèi)容]</p>
</TD>
</TR>{/dede:match}
{dede:trim}<tdalign='center'height='30'>(.*)</option></select></td>{/dede:trim}
{dede:trim}
{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}{/dede:trim}

{dede:function}{/dede:function}

{/dede:note}

{dede:notefield='dede_archives.source'value='[var:內(nèi)容]'comment='文章來源'
isunit=''isdown=''}

{dede:match}{/dede:match}

{dede:function}@me='互聯(lián)網(wǎng)'{/dede:function}

{/dede:note}
{/dede:art}

 



收縮
  • 微信客服
  • 微信二維碼
  • 電話咨詢

  • 400-1100-266