主頁 > 知識庫 > Python爬蟲數(shù)據(jù)的分類及json數(shù)據(jù)使用小結(jié)

Python爬蟲數(shù)據(jù)的分類及json數(shù)據(jù)使用小結(jié)

熱門標(biāo)簽:原裝電話機(jī)器人 工廠智能電話機(jī)器人 在哪里辦理400電話號碼 西藏智能外呼系統(tǒng)五星服務(wù) 千陽自動外呼系統(tǒng) 江蘇客服外呼系統(tǒng)廠家 清遠(yuǎn)360地圖標(biāo)注方法 平頂山外呼系統(tǒng)免費(fèi) 400電話申請服務(wù)商選什么

數(shù)據(jù)的結(jié)構(gòu)化分類

       一般來講對我們而言,需要抓取的是某個網(wǎng)站或者某個應(yīng)用的內(nèi)容,提取有用的價值。內(nèi)容一般分為三部分,結(jié)構(gòu)化的數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)和非機(jī)構(gòu)化數(shù)據(jù)。
1.結(jié)構(gòu)化數(shù)據(jù):
       可以用統(tǒng)一的結(jié)構(gòu)加以表示的數(shù)據(jù)??梢允褂藐P(guān)系型數(shù)據(jù)庫表示和存儲,表現(xiàn)為二維形式的數(shù)據(jù),一般特點(diǎn)是:數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個實(shí)體的信息,每一行的數(shù)據(jù)的屬性是相同的。
2.半結(jié)構(gòu)化數(shù)據(jù):
       結(jié)構(gòu)化數(shù)據(jù)的一種形式,并不符合關(guān)系型數(shù)據(jù)庫或其他數(shù)據(jù)表的形式關(guān)聯(lián)起來的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,用來分隔語義元素以及對記錄和字段進(jìn)行分層。因此他也被成為自描述的結(jié)構(gòu)。常見的半結(jié)構(gòu)數(shù)據(jù)有:html,xml和json等、實(shí)際上是以樹或者圖的結(jié)構(gòu)來存儲的。
       對于半結(jié)構(gòu)化數(shù)據(jù),節(jié)點(diǎn)中屬性的順序是不重要的,不同的半結(jié)構(gòu)化數(shù)據(jù)的屬性的個數(shù)是不一樣的。這樣的數(shù)據(jù)格式,可以自由的表達(dá)很多有用的信息,包含自描述信息。所以半結(jié)構(gòu)化數(shù)據(jù)的擴(kuò)展性很好,特別適合于在互聯(lián)網(wǎng)中大規(guī)模傳播。
3.非結(jié)構(gòu)化數(shù)據(jù)
       就是沒有固定的結(jié)構(gòu)。各種文檔,圖片,視頻或者音頻都屬于非結(jié)構(gòu)化數(shù)據(jù)。對于這類數(shù)據(jù),我們一般直接整體進(jìn)行存儲,而且一般存儲為二進(jìn)制形式。

json數(shù)據(jù)

       json(JavaScript Object Notation,JS對象標(biāo)記)是一種輕量級的數(shù)據(jù)交換格式。他基于ECMAScript(w3c制定的JS規(guī)范)的一個子集,采用完全獨(dú)立于編程語言的文本格式來存儲和表示數(shù)據(jù)。簡介和清晰的層次結(jié)構(gòu)使得JSON成為理想的數(shù)據(jù)交換語言。
       特點(diǎn):易于閱讀、易于機(jī)器生成、有效提升網(wǎng)絡(luò)速度。
       JSON語法規(guī)則:在JS語言中,一切都是對象。因此,任何支持的類型都可以通過json來表示。例如字符串、數(shù)字,對象,數(shù)組。
Js中對象和數(shù)組是比較特殊并且常用的兩種類型:
       1.對象表示為鍵值對{name:'zhangsan',age:'7'}
       2.數(shù)據(jù)有逗號分隔[1,2,3,4,5]
       3.花括號保存對象
       4.方括號保存數(shù)組。
js的對象就相當(dāng)于python中的字典
js的數(shù)組就相當(dāng)于Python中的列表
       因?yàn)閖son用來存儲js的對象或者數(shù)組,所以在Python中我們可以將json轉(zhuǎn)化為list或者dict。

解析json的包json:

       json.dumps(python的list或者dict)---->(返回值)---->json字符串。
       json.loads(json字符串)------>(返回值)----->python的list或者dict.

       json.dump(list/dict,fp)—>list,或者字典保存到j(luò)son文件中。
       json.load(fp)—>list/dict:從json文件中讀出json數(shù)據(jù)。

       json鍵值對是用來保存js對象的一種方式,和js對象的寫法頁大同小異,比如:
{“firstName”:“Json”,“Class”:“aid1111”}等價于下面這條js語句:{firstName:“Json”,Class:“aid1111”}。
       很多人搞不清楚json和js對象的關(guān)系,甚至誰是誰都不清楚。其實(shí)可以這么理解:【JSON是JS對象的字符串表達(dá)式,他使用文本形式表示一個JS對象的信息,本質(zhì)是一個字符串?!?br />        如var obj = {a:“hello”,b:“World”}這是一個js對象。注意,鍵名也是可以用引號包裹的var json = ' {“a”:“hello”,“b”:“World”}'這是一個json字符串,本質(zhì)上是一個字符串。
       JSON作為數(shù)據(jù)包格式傳輸?shù)臅r候具有更高的效率,這是因?yàn)镴SON不想xml那樣具有嚴(yán)格的閉合標(biāo)簽,這就讓有效數(shù)據(jù)量與總數(shù)據(jù)包比大大提升,從而減少同等數(shù)據(jù)流量的情況下,網(wǎng)絡(luò)的傳輸?shù)膲毫Υ蟠鬁p低。

以上就是Python爬蟲數(shù)據(jù)的分類及json數(shù)據(jù)使用小結(jié)的詳細(xì)內(nèi)容,更多關(guān)于Python爬蟲數(shù)據(jù)的分類及json數(shù)據(jù)使用的資料請關(guān)注腳本之家其它相關(guān)文章!

您可能感興趣的文章:
  • python 類相關(guān)概念理解
  • python可變對象,不可變對象詳解
  • Python3中函數(shù)參數(shù)傳遞方式實(shí)例詳解
  • 一篇文章教你掌握python數(shù)據(jù)類型的底層實(shí)現(xiàn)
  • Python 類,對象,數(shù)據(jù)分類,函數(shù)參數(shù)傳遞詳解

標(biāo)簽:安慶 錦州 日照 西安 股票 隨州 天水 白城

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲數(shù)據(jù)的分類及json數(shù)據(jù)使用小結(jié)》,本文關(guān)鍵詞  Python,爬蟲,數(shù)據(jù),的,分類,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python爬蟲數(shù)據(jù)的分類及json數(shù)據(jù)使用小結(jié)》相關(guān)的同類信息!
  • 本頁收集關(guān)于Python爬蟲數(shù)據(jù)的分類及json數(shù)據(jù)使用小結(jié)的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章