久久精品国产亚洲夜色AV网站,国产精品二代,久草热视频免费的网址

主頁(yè) > 知識(shí)庫(kù) > Python中Pyspider爬蟲框架的基本使用詳解

Python中Pyspider爬蟲框架的基本使用詳解

1.pyspider介紹

一個(gè)國(guó)人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的WebUI。采用Python語言編寫，分布式架構(gòu)，支持多種數(shù)據(jù)庫(kù)后端，強(qiáng)大的WebUI支持腳本編輯器，任務(wù)監(jiān)視器，項(xiàng)目管理器以及結(jié)果查看器。

用Python編寫腳本
功能強(qiáng)大的WebUI，包含腳本編輯器，任務(wù)監(jiān)視器，項(xiàng)目管理器和結(jié)果查看器
MySQL，MongoDB，Redis，SQLite，Elasticsearch ; PostgreSQL與SQLAlchemy作為數(shù)據(jù)庫(kù)后端
RabbitMQ，Beanstalk，Redis和Kombu作為消息隊(duì)列
任務(wù)優(yōu)先級(jí)，重試，定期，按年齡重新抓取等...
分布式架構(gòu)，抓取JavaScript頁(yè)面，Python 2和3等...

2.pyspider文檔

1>中文文檔:http://www.pyspider.cn/

2>英文文檔:http://docs.pyspider.org/

3.pyspider安裝

打開cmd命令行工具,執(zhí)行命令

pip install pyspider

出現(xiàn)下圖則安裝成功

4.pyspider啟動(dòng)服務(wù),進(jìn)入WebUI界面

安裝pyspider后,打開cmd命令工具,執(zhí)行命令來啟動(dòng)服務(wù)器

pyspider

出現(xiàn)下圖則啟動(dòng)服務(wù)成功,默認(rèn)地址端口為127.0.0.1:5000

輸入地址127.0.0.1:5000,打開WebUI界面

隊(duì)列統(tǒng)計(jì)是為了方便查看爬蟲狀態(tài)，優(yōu)化爬蟲爬取速度新增的狀態(tài)統(tǒng)計(jì)．每個(gè)組件之間的數(shù)字就是對(duì)應(yīng)不同隊(duì)列的排隊(duì)數(shù)量．通常來是０或是個(gè)位數(shù)．如果達(dá)到了幾十甚至一百說明下游組件出現(xiàn)了瓶頸或錯(cuò)誤，需要分析處理．

新建項(xiàng)目：pyspider與scrapy最大的區(qū)別就在這，pyspider新建項(xiàng)目調(diào)試項(xiàng)目完全在web下進(jìn)行，而scrapy是在命令行下開發(fā)并運(yùn)行測(cè)試．

組名：項(xiàng)目新建后一般來說是不能修改項(xiàng)目名的，如果需要特殊標(biāo)記可修改組名．直接在組名上點(diǎn)鼠標(biāo)左鍵進(jìn)行修改．注意：組名改為delete后如果狀態(tài)為stop狀態(tài)，24小時(shí)后項(xiàng)目會(huì)被系統(tǒng)刪除．

運(yùn)行狀態(tài)：這一欄顯示的是當(dāng)前項(xiàng)目的運(yùn)行狀態(tài)．每個(gè)項(xiàng)目的運(yùn)行狀態(tài)都是單獨(dú)設(shè)置的．直接在每個(gè)項(xiàng)目的運(yùn)行狀態(tài)上點(diǎn)鼠標(biāo)左鍵進(jìn)行修改．運(yùn)行分為五個(gè)狀態(tài)：TODO，STOP，CHECKING，DEBUG，RUNNING．各狀態(tài)說明：TODO是新建項(xiàng)目后的默認(rèn)狀態(tài)，不會(huì)運(yùn)行項(xiàng)目．STOP狀態(tài)是停止?fàn)顟B(tài)，也不會(huì)運(yùn)行．CHECHING是修改項(xiàng)目代碼后自動(dòng)變的狀態(tài)．DEBUG是調(diào)試模式，遇到錯(cuò)誤信息會(huì)停止繼續(xù)運(yùn)行，RUNNING是運(yùn)行狀態(tài)，遇到錯(cuò)誤會(huì)自動(dòng)嘗試，如果還是錯(cuò)誤會(huì)跳過錯(cuò)誤的任務(wù)繼續(xù)運(yùn)行．

速度控制：很多朋友安裝好用說爬的慢，多數(shù)情況是速度被限制了．這個(gè)功能就是速度設(shè)置項(xiàng)．rate是每秒爬取頁(yè)面數(shù)，burst是并發(fā)數(shù)．如1/3是三個(gè)并發(fā)，每秒爬取一個(gè)頁(yè)面．

簡(jiǎn)單統(tǒng)計(jì)：這個(gè)功能只是簡(jiǎn)單的做的運(yùn)行狀態(tài)統(tǒng)計(jì)，5m是五分鐘內(nèi)任務(wù)執(zhí)行情況，1h是一小時(shí)內(nèi)運(yùn)行任務(wù)統(tǒng)計(jì)，1d是一天內(nèi)運(yùn)行統(tǒng)計(jì)，all是所有的任務(wù)統(tǒng)計(jì)．

運(yùn)行：run按鈕是項(xiàng)目初次運(yùn)行需要點(diǎn)的按鈕，這個(gè)功能會(huì)運(yùn)行項(xiàng)目的on_start方法來生成入口任務(wù)．

任務(wù)列表：顯示最新任務(wù)列表，方便查看狀態(tài)，查看錯(cuò)誤等

結(jié)果查看：查看項(xiàng)目爬取的結(jié)果．

5.創(chuàng)建pyspider項(xiàng)目

點(diǎn)擊上圖中的新建項(xiàng)目按鈕

6.創(chuàng)建后的pyspider項(xiàng)目

到此這篇關(guān)于Python中Pyspider爬蟲框架的基本使用詳解的文章就介紹到這了,更多相關(guān)Pyspider爬蟲框架使用內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python爬蟲框架feapder的使用簡(jiǎn)介
一文讀懂python Scrapy爬蟲框架
python Scrapy爬蟲框架的使用
詳解Python的爬蟲框架 Scrapy
python3 Scrapy爬蟲框架ip代理配置的方法
Python3環(huán)境安裝Scrapy爬蟲框架過程及常見錯(cuò)誤
windows下搭建python scrapy爬蟲框架步驟
windows7 32、64位下python爬蟲框架scrapy環(huán)境的搭建方法
上手簡(jiǎn)單,功能強(qiáng)大的Python爬蟲框架——feapder

標(biāo)簽：重慶長(zhǎng)春廊坊漢中河池德宏東莞臨汾

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Python中Pyspider爬蟲框架的基本使用詳解》，本文關(guān)鍵詞 Python,中,Pyspider,爬蟲,框架,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。