日逼视频网站,91精品国久久久久久无码

主頁 > 知識庫 > Python音樂爬蟲完美繞過反爬

Python音樂爬蟲完美繞過反爬

前言

大家好，我叫善念。

這是我的第二篇博客，也是第一篇技術博客，希望大家多多支持，讓我更加有動力去更新一些python爬蟲類的案例教程。

開始

確立目標網(wǎng)址：點擊進入

進入到跳轉(zhuǎn)頁面：

可以看到出現(xiàn)了咱們需要的一些音樂

分析（x0）

這些音樂的源文件地址是否在咱們的網(wǎng)頁元素中，然后再查看網(wǎng)頁源代碼中是否有咱們需要的內(nèi)容。（注：網(wǎng)頁元素與網(wǎng)頁源代碼不一定是一樣的，網(wǎng)頁元素是經(jīng)過瀏覽器渲染后的源代碼，而源代碼純粹就是服務器給咱們傳送過來的原始數(shù)據(jù)）

網(wǎng)頁元素中只有封面圖片的資源，沒用音頻源文件地址：

網(wǎng)頁源代碼中同樣沒有咱們需要的內(nèi)容：

分析（x1）

其實沒有才正常（這種大型網(wǎng)站的數(shù)據(jù)不會讓你這么輕易抓?。?...不過是帶大家走一遍流程，對別的網(wǎng)站也要這樣分析

那么咱們開始播放音樂抓包，看是否能抓到數(shù)據(jù)：

果然是經(jīng)過觸發(fā)播放按鈕后，服務器傳給咱們客戶端的。（ajax）

而咱們抓到的這個源文件地址

除了這兩段外，其它的應該都是固定死的。

分析（x2）

那么我假設這兩段是從我開始訪問這首歌曲頁面的時候生成的，比如后面那串數(shù)字為這首音樂在服務器數(shù)據(jù)庫中的對應的一個ID值呢？

假設是合理的，不過由于咱們前面已經(jīng)查看過源代碼和網(wǎng)頁元素中找不到這些值，我就不在這里浪費時間了。

分析（x3）

這里我和大家講一下，咱們向服務器發(fā)送一個網(wǎng)址請求，服務器給咱們返回的可不止一個數(shù)據(jù)包，一般都是N個數(shù)據(jù)包。當我們看到源代碼中沒有時候，也許它正悄悄地通過Ajax傳給我們了？

Ajax在網(wǎng)上有很多的解釋，但是大家未必能理解。從服務器獲得源代碼數(shù)據(jù)，然后通過瀏覽器渲染執(zhí)行JavaScript獲得一些數(shù)據(jù)（音樂）。

這樣說大家應該就懂了，那么咱們開始抓當前頁面的包：

Ajax異步請求的數(shù)據(jù)，都會在XHR中。所以直接篩選就好了。這個包我已經(jīng)抓到了，get請求然后看下返回的值。

果然就是這個包數(shù)據(jù)都是對應的，然后打開看看里面是否有音樂源文件地址：

并沒有，但是有一個rid出現(xiàn)了兩次。

分析（x4）

那么它是否是咱們音樂的ID（索引）值？

接著看下面的包：

這個get請求很關鍵，它的參數(shù)中利用到了咱們的rid這個值

而他返回值里正好有咱們的音樂源文件地址：

通過分析獲取到音樂

通過咱們的分析，已經(jīng)可以理清思路了。

首先抓取這個包獲取到rid

然后傳遞rid進行這個包的請求獲取到音樂文件地址

JavaScript繞過之參數(shù)冗余

可以看到這個rid獲取的地址中有key值是url編碼很輕松就可以解碼：

import requests
keywords = '%E5%BE%80%E4%BA%8B%E9%9A%8F%E9%A3%8E'
print(requests.utils.unquote(keywords))
# 往事隨風

而pn=1意思就是第一頁嘛，30就是這一頁總共30條音樂數(shù)據(jù)咯，1代表狀態(tài)碼請求成功，而最后reqId這個值如何獲取呢？

有能力的自己去逆向JavaScript，而咱們這里直接把這里的參數(shù)都刪除掉，同樣可以訪問到咱們的rid，為什么呢？

當你訪問百度的時候

可以看到多余了很多你看不懂的參數(shù)，而這些參數(shù)實際上可以直接刪除掉！

結果是一樣的，這個就叫參數(shù)冗余。

CSRF攻擊與防御

當咱們直接訪問這個鏈接確出現(xiàn)這樣的畫面？

而咱們?nèi)绻颜埱箢^全部放到咱們的pycharm中利用Python模擬發(fā)送請求卻可以成功（自行測試）

可以看到請求中有一個參數(shù)叫csrf，這個叫做防跨站點攻擊。

這個就好理解了，當我們用瀏覽器直接訪問的話，盡管可以帶cookies，但是咱們是沒法攜帶這個參數(shù)的。而當我們把請求頭完整的復制在pycharm中Python運行的話，就可以攜帶這個參數(shù)，那么就可以訪問。

目的就是保護此api防止任意情況下都可以隨便訪問。

而這個csrf參數(shù)不就是咱們cookies中的值么？那么是不是咱們首先需要獲取cookies？因為cookies會過期阿，為了讓你的程序永久有效，那么最好的辦法就是自動獲取cookies

總結

那么所有的原理都可以搞清楚了

首先訪問首頁獲取cookies，然后繞過JavaScript刪除多余的參數(shù)獲取到rid，最后通過rid進行訪問獲取到音樂源地址（這里的參數(shù)也可以刪除），最后保存數(shù)據(jù)！

全程干貨，分析網(wǎng)站反扒手段，Python采集整站任意音樂！

代碼

"""
author: 善念
date: 2021-04-12
"""
import requests
import jsonpath
from urllib.request import urlretrieve
import urllib.parse
 
 
def get_csrf():
    # 保持cookies 維持客戶端與服務器之間的會話
 
    headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
        'Cache-Control': 'no-cache',
        'Connection': 'keep-alive',
        # 'Cookie': 'Hm_lvt_cdb524f42f0ce19b169a8071123a4797=1618229629; _ga=GA1.2.1951895595.1618229638; _gid=GA1.2.369506281.1618229638; Hm_lpvt_cdb524f42f0ce19b169a8071123a4797=1618230532; kw_token=ZOMA0RIOLV',
        'Host': 'www.kuwo.cn',
        'Pragma': 'no-cache',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36',
    }
    s.get('http://www.kuwo.cn/', headers=headers)
 
    url = f'http://www.kuwo.cn/api/www/search/searchMusicBykeyWord?key={keyword}pn=1rn=30httpsStatus=1reqId=a3b6cb30-9b8a-11eb-bc04-b33703ed2ebb'
    headers = {
        'Accept': 'application/json, text/plain, */*',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
        'Cache-Control': 'no-cache',
        'Connection': 'keep-alive',
        # 'Cookie': 'Hm_lvt_cdb524f42f0ce19b169a8071123a4797=1618229629; _ga=GA1.2.1951895595.1618229638; _gid=GA1.2.369506281.1618229638; Hm_lpvt_cdb524f42f0ce19b169a8071123a4797=1618229710; kw_token=UTBATXE1HY',
        'csrf': s.cookies.get_dict()['kw_token'],
        'Host': 'www.kuwo.cn',
        'Pragma': 'no-cache',
        'Referer': f'http://www.kuwo.cn/search/list?key={keyword}',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36',
 
 
    }
    r = s.get(url, headers=headers)
    print(r.text)
    rid = jsonpath.jsonpath(r.json(), '$..rid')[0]
    print(rid)
    return rid
 
 
def get_music_url(rid):
    url = f'http://www.kuwo.cn/url?format=mp3rid={rid}response=urltype=convert_url3br=128kmp3from=webhttpsStatus=1'
    headers = {
        'Accept': 'application/json, text/plain, */*',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9',
        'Cache-Control': 'no-cache',
        'Connection': 'keep-alive',
        # 'Cookie': 'Hm_lvt_cdb524f42f0ce19b169a8071123a4797=1618231398; _ga=GA1.2.52993118.1618231399; _gid=GA1.2.889494894.1618231399; Hm_lpvt_cdb524f42f0ce19b169a8071123a4797=1618231413; _gat=1; kw_token=VBM6N1XEG4P',
        'Host': 'www.kuwo.cn',
        'Pragma': 'no-cache',
        'Referer': f'http://www.kuwo.cn/search/list?key={keyword}',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36',
    }
    music_url = s.get(url, headers=headers).json().get('url')
    print(music_url)
    return music_url
 
 
def get_music(music_url):
    urlretrieve(music_url, f'{urllib.parse.unquote(keyword)}'+'.mp3')
 
 
def go():
    rid = get_csrf()
    music_url = get_music_url(rid)
    get_music(music_url)
 
 
if __name__ == '__main__':
    s = requests.session()
    keyword = input('請輸入您要下載的音樂名字：')
    keyword = urllib.parse.quote(keyword)
    go()

到此這篇關于Python音樂爬蟲完美繞過反爬的文章就介紹到這了,更多相關Python爬取音樂內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python基于爬蟲實現(xiàn)全網(wǎng)搜索并下載音樂
python實現(xiàn)可下載音樂的音樂播放器
如何基于Python批量下載音樂
python爬取網(wǎng)易云音樂熱歌榜實例代碼
python打開音樂文件的實例方法
python給視頻添加背景音樂并改變音量的具體方法
python中加背景音樂如何操作
基于python實現(xiàn)音樂播放器代碼實例
Python如何爬取qq音樂歌詞到本地
python實現(xiàn)音樂播放和下載小程序功能
如何用Python一次性下載抖音上音樂

標簽：盤錦寧夏漯河南平普洱林芝大同海南

巨人網(wǎng)絡通訊聲明：本文標題《Python音樂爬蟲完美繞過反爬》，本文關鍵詞 Python,音樂,爬蟲,完美,繞過,；如發(fā)現(xiàn)本文內(nèi)容存在版權問題，煩請?zhí)峁┫嚓P信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡，涉及言論、版權與本站無關。