国产精品天干天干在线观看,男女性爽大片视频

主頁(yè) > 知識(shí)庫(kù) > python 實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)到txt和pdf文檔及亂碼問(wèn)題的解決

python 實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)到txt和pdf文檔及亂碼問(wèn)題的解決

第一、幾種常用方法

讀取TXT文檔：urlopen()

讀取PDF文檔：pdfminer3k

第二、亂碼問(wèn)題

(1)、

from urllib.request import urlopen
#訪問(wèn)wiki內(nèi)容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read())

輸出的結(jié)果中出現(xiàn)亂碼原因：

計(jì)算機(jī)只能處理0和1兩個(gè)數(shù)字，所以想要處理文本，必須把文本變成0和1這樣的數(shù)字，最早的計(jì)算機(jī)使用八個(gè)0和1表示一個(gè)字節(jié)，所以最大能夠表示整數(shù)是255=11111111.如果想要表示更大的數(shù)，必須使用更多的字節(jié)。

由于計(jì)算機(jī)是美國(guó)人發(fā)明的，所以最早只有127個(gè)字符被編寫(xiě)進(jìn)計(jì)算機(jī)，即常見(jiàn)的阿拉伯?dāng)?shù)字，字母大小寫(xiě)，以及鍵盤(pán)上的符號(hào)。此編碼被稱為ASCII編碼，比如大寫(xiě)字母A的ASCII編碼是65,65再被轉(zhuǎn)換二進(jìn)制01000001，即是計(jì)算機(jī)處理的東西。

顯然，ASCII不能表示中文，故中國(guó)制定了自己的GB2312編碼，并且兼容ASCII編碼。問(wèn)題是：使用GB2312編碼的慕課網(wǎng)三個(gè)字，假設(shè)編碼為61,62,63.但在ASCII碼表可能是其他字符。如下圖示，日文中的616263編碼成其他字符，打開(kāi)后意思出錯(cuò)。

解決方法：

國(guó)際上的unicode編碼，整合全世界所有編碼。故unicode編碼的內(nèi)容在任一臺(tái)計(jì)算機(jī)用unicode仍正常打開(kāi)

又對(duì)于A,ASCII編碼為01000001，Unicode編碼：0000000001000001此時(shí)浪費(fèi)空間

故出現(xiàn)UTF-8編碼：01000001此時(shí)用兩個(gè)八位存儲(chǔ)中文。

(2)、記事本使用unicode編碼，將記事本存到計(jì)算機(jī)時(shí)，將轉(zhuǎn)化為utf-8儲(chǔ)存。

在計(jì)算機(jī)中打開(kāi)文本時(shí)，將轉(zhuǎn)化為unicode編碼

存儲(chǔ)原因：使用utf-8儲(chǔ)存節(jié)省空間，使用unicode打開(kāi)保證最大的兼容

(3)、服務(wù)器讀取uncode編碼的文檔，轉(zhuǎn)化為utf-8格式傳給瀏覽器。因?yàn)榫W(wǎng)絡(luò)帶寬昂貴，轉(zhuǎn)化為了減少負(fù)擔(dān)。

(4)、python3字符串默認(rèn)使用Unicode編碼，所以python3支持多種語(yǔ)言

以Unicode表示的str通過(guò)encode()方法可以編碼為指定的bytes

如果bytes使用ASCII編碼，遇到ASCII碼表沒(méi)有的字符會(huì)以\x##表示，此時(shí)只用‘\x##'.decode('utf-8')即可

(5)、解決方法

from urllib.request import urlopen
#訪問(wèn)wiki內(nèi)容
html = urlopen("https://en.wikipedia.org/robots.txt")
print(html.read().decode("utf-8"))

第三、pdfminer3k安裝

法一：

(1)、進(jìn)入網(wǎng)址直接下載并解壓：https://pypi.python.org/pypi/pdfminer3k/

(2)、以管理員身份運(yùn)行命令行窗口，進(jìn)入軟件解壓縮位置，運(yùn)行python setup.py install

法二：

(3)、直接在pycharm中安裝

(4)、讀取pdf過(guò)程：首先創(chuàng)建一個(gè)分析器pdfparser和文檔對(duì)象pdfdocument，并通過(guò)兩個(gè)方法相互關(guān)聯(lián)，然后調(diào)用文檔對(duì)象的初始化方法（可以傳參數(shù)），此時(shí)資源內(nèi)容被加載到文檔對(duì)象中。

創(chuàng)建資源管理器和參數(shù)分析器，然后創(chuàng)建聚合器(整合資源管理器和參數(shù)分析器)，通過(guò)聚合器創(chuàng)建解釋器（對(duì)pdf文檔進(jìn)行編碼，解釋成python能識(shí)別的格式）

(5)、讀取pdf文檔：通過(guò)文檔對(duì)象的get_pages()方法得到pdf每一頁(yè)的內(nèi)容，通過(guò)解釋器的process_page()方法讀取一頁(yè)一頁(yè)。

(6)、實(shí)例演示

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
#獲得文檔對(duì)象,以二進(jìn)制讀方式打開(kāi)
fp = open("naacl06-shinyama.pdf", "rb")
#創(chuàng)建一個(gè)與文檔關(guān)聯(lián)的分析器
parser = PDFParser(fp)
#創(chuàng)建一個(gè)pdf文檔的對(duì)象
doc = PDFDocument()
#連接解釋器與文檔對(duì)象
parser.set_document(doc)
doc.set_parser(parser)
#初始化文檔,如果文檔有密碼，寫(xiě)與此。
doc.initialize("")
#創(chuàng)建pdf資源管理器
resource = PDFResourceManager()
#參數(shù)分析器
laparam = LAParams()
#創(chuàng)建聚合器
device = PDFPageAggregator(resource, laparams=laparam)
#創(chuàng)建pdf頁(yè)面解釋器
interpreter = PDFPageInterpreter(resource, device)
#使用文檔對(duì)象得到頁(yè)面的集合
for page in doc.get_pages():
  #使用頁(yè)面解釋器讀取
  interpreter.process_page(page)
  #使用聚合器來(lái)獲得內(nèi)容
  layout = device.get_result()
  for out in layout:
    if hasattr(out, "get_text"):
      print(out.get_text())

一下用于讀取網(wǎng)站上pdf內(nèi)容

fp = urlopen(http://www.tencent.com/zh-cn/articles/8003251479983154.pdf)

補(bǔ)充內(nèi)容：

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教。

您可能感興趣的文章:

Python爬蟲(chóng)爬取全球疫情數(shù)據(jù)并存儲(chǔ)到mysql數(shù)據(jù)庫(kù)的步驟
Python爬取騰訊疫情實(shí)時(shí)數(shù)據(jù)并存儲(chǔ)到mysql數(shù)據(jù)庫(kù)的示例代碼
MySQL和Python交互的示例
配置python連接oracle讀取excel數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù)的操作流程
Python 對(duì)Excel求和、合并居中的操作
如何用python合并多個(gè)excel文件
python基于pyppeteer制作PDF文件
python操作mysql、excel、pdf的示例

標(biāo)簽：文山懷化昆明浙江梅州西寧錫林郭勒盟石家莊

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《python 實(shí)現(xiàn)存儲(chǔ)數(shù)據(jù)到txt和pdf文檔及亂碼問(wèn)題的解決》，本文關(guān)鍵詞 python,實(shí)現(xiàn),存儲(chǔ),數(shù)據(jù),到,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。