一、相關知識點
1.1、Selenium
Selenium是一個強大的開源Web功能測試工具系列,可進行讀入測試套件、執(zhí)行測試和記錄測試結(jié)果,模擬真實用戶操作,包括瀏覽頁面、點擊鏈接、輸入文字、提交表單、觸發(fā)鼠標事件等操作,并且能夠?qū)撁娼Y(jié)果進行種種驗證。也就是說,只要在測試用例中把預期的用戶行為與結(jié)果都描述出來,我們就得到了一個可以自動化運行的功能測試套件。
1.2、ActionChains
Actionchains是selenium里面專門處理鼠標相關的操作如:鼠標移動,鼠標按鈕操作,按鍵和上下文菜單(鼠標右鍵)交互。這對于做更復雜的動作非常有用,比如懸停和拖放。
1.3、time
返回當前時間的時間戳
1.4、lxml
lxml是一個Python庫,使用它可以輕松處理XML和HTML文件,還可以用于web爬取。市面上有很多現(xiàn)成的XML解析器,但是為了獲得更好的結(jié)果,開發(fā)人員有時更愿意編寫自己的XML和HTML解析器。這時lxml庫就派上用場了。這個庫的主要優(yōu)點是易于使用,在解析大型文檔時速度非???,歸檔的也非常好,并且提供了簡單的轉(zhuǎn)換方法來將數(shù)據(jù)轉(zhuǎn)換為Python數(shù)據(jù)類型,從而使文件操作更容易。
1.5、csv
csv文件格式是一種通用的電子表格和數(shù)據(jù)庫導入導出格式。最近我調(diào)用RPC處理服務器數(shù)據(jù)時,經(jīng)常需要將數(shù)據(jù)做個存檔便使用了這一方便的格式。
1.6、requests
Requests 庫是一個優(yōu)雅而簡單的 Python HTTP 庫,主要用于發(fā)送和處理 HTTP 請求
二、部分代碼解析
加載Chrome驅(qū)動,動態(tài)解析爬取的網(wǎng)址
#提取公共的爬取信息的api
def commonsdk(self,url):
browser = webdriver.Chrome('D:/chromedriver.exe')
try:
browser.get(url)
except Exception as e:
browser.execute_script('window.stop()') # 超出時間則不加載
print(e, 'dynamic web load timeout')
return browser;
實現(xiàn)模擬登錄
通過定位淘寶登陸界面的url的表單框,然后輸入自己的用戶名及密碼,再模擬鼠標點擊事件,繼而提交表單信息實現(xiàn)用戶登錄。
#模擬登錄
def logon(self,url,a_href_list_next):
username = "淘寶賬戶名"
password = "密碼"
browser1 = self.commonsdk(url)
#登錄賬號
browser1.find_element_by_id('fm-login-id').send_keys(username)
browser1.find_element_by_id('fm-login-password').send_keys(password)
#模擬用戶點擊登錄
browser1.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()
#解析商品信息
self.Buy_information(a_href_list_next,browser1)
爬取側(cè)邊欄目錄
1、首先定位到目錄分類欄,鼠標光標移動到需要選中的那一欄,繼而會出現(xiàn)隱藏的div,(這里需要實現(xiàn)鼠標懸停事件)action.move_to_element(li_list).perform()實現(xiàn)了這一功能。
2、然后定位自己所需要爬取的側(cè)邊欄的那一行或多行,通過實現(xiàn)鼠標懸停事件后獲取其中內(nèi)容。
3、獲取其超鏈接進入下一界面
#爬取目錄
def List(self,url):
browser = self.commonsdk(url)
#ActionChains類實現(xiàn)鼠標的單擊、雙擊、拖拽等功能
action = ActionChains(browser)
li_list = browser.find_elements_by_css_selector('.service-bd li')[1]
#實現(xiàn)執(zhí)行鼠標懸停,便于爬取懸停內(nèi)容
action.move_to_element(li_list).perform()
time.sleep(5)
#爬取整個目錄的div
div_list = browser.find_element_by_css_selector('.service-fi-links')
#爬取其中的總的名稱
h5_list = div_list.find_elements_by_css_selector('h5')
#爬取小標題的名稱
p_list = div_list.find_elements_by_css_selector('p')
#獲取a標簽
a_href_list = div_list.find_elements_by_css_selector('a')
#獲取a標簽的超鏈接
a_href_list_next = div_list.find_elements_by_css_selector('a')[1].get_attribute('href')
print(li_list.text)
for j in range(len(p_list)):
if jlen(p_list):
print(h5_list[j].text)
print(p_list[j].text)
for i in range(len(a_href_list)):
print(a_href_list[i].get_attribute('href'))
#獲取登錄框
logon = browser.find_element_by_id('J_SiteNavBd')
#獲取登錄框的超鏈接
logon_url = logon.find_element_by_css_selector('a').get_attribute('href')
#先關閉第一個網(wǎng)頁
browser.close()
self.logon(logon_url,a_href_list_next)
獲取商品信息
1、這里使用的定位方式是Xpath方式,使用了絕對定位來獲取標簽的位置。
#爬取商品信息
def Buy_information(self,url,browser):
browser.get(url)
div_list = browser.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]')
img = div_list.find_element_by_css_selector('img')
img_url = "https:"+img.get_attribute('data-src')
price = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[1]').text
number = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[2]').text
shoping_information = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[2]').text
shop = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[1]/a').text
adress = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[2]').text
path = self.img_baocun(img_url)
data={
'圖片路徑':path,
'價格':price,
'購買人數(shù)':number,
'商品信息':shoping_information,
'商家':shop,
'籍貫':adress
}
self.write_dictionary_to_csv(data,'information')
下載圖片
通過獲取到的圖片的url,然后將圖片下載到指定的文件夾內(nèi)
#下載照片
def img_baocun(self,url):
root = "文件夾下載的路徑"http://電腦上的絕對路徑
path = root + url.split('?')[0].split('/')[-1].strip('')#獲取jpg的名稱
#判斷是否存在該路徑,不存在則創(chuàng)建
if not os.path.exists(root):
os.mkdir(root)
#判斷是否存在該圖片,存在則不下載
if not os.path.exists(path):
r = requests.get(url)
r.raise_for_status()
with open(path,'wb') as f:
f.write(r.content)
return path
將需要爬取的信息寫入到csv文件中,便于查看
1、商品信息以字典的形式寫入csv文件中方便查看。
#將解析得到的內(nèi)容(字典格式)逐行寫入csv文件
def write_dictionary_to_csv(self,dict,filename):
#格式化文件名
file_name='{}.csv'.format(filename)
with open(file_name, 'a',encoding='utf-8') as f:
file_exists = os.path.isfile(filename)
#delimiter(定界符)
w =csv.DictWriter(f, dict.keys(),delimiter=',', quotechar='"', lineterminator='\n',quoting=csv.QUOTE_ALL, skipinitialspace=True)
if not file_exists :
w.writeheader()
w.writerow(dict)
print('當前行寫入csv成功!')
三、程序思路
1、首先定位到側(cè)邊欄的位置,然后使用action.move_to_element(li_list).perform()的方法實現(xiàn)鼠標的動態(tài)懸停,讓隱藏的div顯示出來,再獲取其中的信息。
2、然后再實現(xiàn)模擬登錄的功能,登錄賬號,獲取其中的商品信息(由于淘寶的反扒機制,多次登錄會讓用戶掃碼登錄,此功能暫未實現(xiàn))
3、商品信息的獲取使用Xpath的絕對定位方式來獲取。
Xpath的使用方式:
右鍵需要定位的標簽->選中Copy選項->Copy Xpath
四、發(fā)展空間
1、解決淘寶反扒機制的問題。傳送門,解決問題
2、文件的寫入換用其他方式。
到此這篇關于Python 爬取淘寶商品信息欄目的實現(xiàn)的文章就介紹到這了,更多相關Python 爬取淘寶商品信息內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
您可能感興趣的文章:- Unity打開淘寶app并跳轉(zhuǎn)到商品頁面功能的實現(xiàn)方法
- 備戰(zhàn)618!用Python腳本幫你實現(xiàn)淘寶秒殺
- python淘寶準點秒殺搶單的實現(xiàn)示例
- python 利用百度API進行淘寶評論關鍵詞提取
- Python實現(xiàn)淘寶秒殺功能的示例代碼
- 用python爬取分析淘寶商品信息詳解技術篇