久久男人av资源网站,久久精品国产曰本波多野结衣

主頁 > 知識庫 > python3 scrapy框架的執(zhí)行流程

python3 scrapy框架的執(zhí)行流程

scrapy框架概述：Scrapy，Python開發(fā)的一個快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試。

創(chuàng)建項目

由于pycharm不能直接創(chuàng)建scrapy項目，必須通過命令行創(chuàng)建，所以相關(guān)操作在pycharm的終端進(jìn)行：
1、安裝scrapy模塊：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
2、創(chuàng)建一個scrapy項目：scrapy startproject test_scrapy
4、生成一個爬蟲：scrapy genspider itcast "itcast.cn”
5、提取數(shù)據(jù)：完善spider，使用xpath等方法
6、保存數(shù)據(jù)：pipeline中保存數(shù)據(jù)

常用的命令

創(chuàng)建項目：scrapy startproject xxx
進(jìn)入項目：cd xxx #進(jìn)入某個文件夾下
創(chuàng)建爬蟲：scrapy genspider xxx（爬蟲名） xxx.com （爬取域）
生成文件：scrapy crawl xxx -o xxx.json (生成某種類型的文件)
運行爬蟲：scrapy crawl XXX
列出所有爬蟲：scrapy list
獲得配置信息：scrapy settings [options]

Scrapy項目下文件

scrapy.cfg: 項目的配置文件
test_scrapy/: 該項目的python模塊。在此放入代碼（核心）
test_scrapy/items.py: 項目中的item文件.（這是創(chuàng)建容器的地方，爬取的信息分別放到不同容器里）
test_scrapy/pipelines.py: 項目中的pipelines文件.
test_scrapy/settings.py: 項目的設(shè)置文件.（我用到的設(shè)置一下基礎(chǔ)參數(shù)，比如加個文件頭，設(shè)置一個編碼）
test_scrapy/spiders/: 放置spider代碼的目錄. （放爬蟲的地方）

scrapy框架的整體執(zhí)行流程

1.spider的yeild將request發(fā)送給engine
2.engine對request不做任何處理發(fā)送給scheduler
3.scheduler，生成request交給engine
4.engine拿到request，通過middleware發(fā)送給downloader
5.downloader在\獲取到response之后，又經(jīng)過middleware發(fā)送給engine
6.engine獲取到response之后，返回給spider，spider的parse()方法對獲取到的response進(jìn)行處理，解析出items或者requests
7.將解析出來的items或者requests發(fā)送給engine
8.engine獲取到items或者requests，將items發(fā)送給ItemPipeline，將requests發(fā)送給scheduler（ps，只有調(diào)度器中不存在request時，程序才停止，及時請求失敗scrapy也會重新進(jìn)行請求）

關(guān)于yeild函數(shù)介紹

簡單地講，yield 的作用就是把一個函數(shù)變成一個 generator（生成器），帶有 yield 的函數(shù)不再是一個普通函數(shù)，Python 解釋器會將其視為一個 generator，帶有yeild的函數(shù)遇到y(tǒng)eild的時候就返回一個迭代值，下次迭代時，代碼從 yield 的下一條語句繼續(xù)執(zhí)行，而函數(shù)的本地變量看起來和上次中斷執(zhí)行前是完全一樣的，于是函數(shù)繼續(xù)執(zhí)行，直到再次遇到 yield。

通俗的講就是：在一個函數(shù)中，程序執(zhí)行到y(tǒng)ield語句的時候，程序暫停，返回yield后面表達(dá)式的值，在下一次調(diào)用的時候，從yield語句暫停的地方繼續(xù)執(zhí)行，如此循環(huán)，直到函數(shù)執(zhí)行完。

到此這篇關(guān)于python3 scrapy框架的執(zhí)行流程的文章就介紹到這了,更多相關(guān)python3 scrapy框架內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python3 Scrapy爬蟲框架ip代理配置的方法
Python3環(huán)境安裝Scrapy爬蟲框架過程及常見錯誤
Python3爬蟲爬取英雄聯(lián)盟高清桌面壁紙功能示例【基于Scrapy框架】
Centos7 Python3下安裝scrapy的詳細(xì)步驟
python3使用scrapy生成csv文件代碼示例
Python3安裝Scrapy的方法步驟
CentOS下安裝python3.5+scrapy的方法步驟
windows10系統(tǒng)中安裝python3.x+scrapy教程

標(biāo)簽：西寧湖北盤錦潮州佳木斯宜昌上饒珠海

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《python3 scrapy框架的執(zhí)行流程》，本文關(guān)鍵詞 python3,scrapy,框架,的,執(zhí)行,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無關(guān)。