主頁 > 知識庫 > python簡單驗證碼識別的實現(xiàn)過程

python簡單驗證碼識別的實現(xiàn)過程

熱門標(biāo)簽:洪澤縣地圖標(biāo)注 大連crm外呼系統(tǒng) 梅州外呼業(yè)務(wù)系統(tǒng) 百度地圖標(biāo)注位置怎么修改 高德地圖標(biāo)注是免費的嗎 老人電話機器人 地圖標(biāo)注視頻廣告 北京電信外呼系統(tǒng)靠譜嗎 無錫客服外呼系統(tǒng)一般多少錢

1. 環(huán)境準(zhǔn)備

1.1 安裝pillow 和 pytesseract

python模塊庫需要 pillow 和 pytesseract 這兩個庫,直接pip install 安裝就好了。

pip install pillow
pip install pytesseract 

1.2 安裝Tesseract-OCR.exe

下載地址:ocr下載地址

建議下載最新穩(wěn)定版本:

tesseract-ocr-w64-setup-v5.0.0.20190623.exe。

安裝過程很簡單,直接點擊下一步就完事了,其間可以默認(rèn)安裝路徑,也可以自定義安裝路徑,裝好之后,把它的安裝路徑添加到環(huán)境變量中即可,如我的這樣:

我的安裝位置:

環(huán)境變量就這樣加:

1.3 更改pytesseract.py的ocr路徑

我們pip install pytesseract 之后,在python解釋器安裝位置包里可以找到pytesseract.py文件如下:

打開之后,更改:

至此,環(huán)境準(zhǔn)備工作算是大功告成了。

2. 測試識別效果

ocr一直默認(rèn)安裝,起始就可以支持?jǐn)?shù)字和英文字母識別的,接下來

我們準(zhǔn)備一張驗證碼圖片:

將圖片,命名為captcha.png,放到程序同一目錄下

import pytesseract
from PIL import Image
image = Image.open("captcha.png")
print(pytesseract.image_to_string(image))

效果:

我們再嘗試一下中文識別。

在進(jìn)行識別之前我們要先下載好中文拓展語言包,
語言包地址

下載需要的的語言包,如下圖,紅框內(nèi)為中文簡體語言包:

下載后將該包直接放在ocr程序安裝目錄的tessdata文件夾里面即可。

找一張圖片測試一下:

import pytesseract
from PIL import Image
image = Image.open("00.jpg")
print(pytesseract.image_to_string(image,lang='chi_sim'))

效果:

有時候文本識別率并不高,建議圖像識別前,先對圖像進(jìn)行灰度化和 二值化

代碼示例:

import pytesseract
from PIL import Image
file = r"00.jpg"

# 先對圖像進(jìn)行灰度化和 二值化
image = Image.open(file)
Img = image.convert('L')   # 灰度化
#自定義灰度界限,這里可以大于這個值為黑色,小于這個值為白色。threshold可根據(jù)實際情況進(jìn)行調(diào)整(最大可為255)。
threshold = 180
table = []
for i in range(256):
    if i  threshold:
        table.append(0)
    else:
        table.append(1)
photo = Img.point(table, '1')  #圖片二值化
#保存處理好的圖片
photo.save('01.jpg')

image = Image.open('01.jpg')
# 解析圖片,lang='chi_sim'表示識別簡體中文,默認(rèn)為English
# 如果是只識別數(shù)字,可再加上參數(shù)config='--psm 6 --oem 3 -c tessedit_char_whitelist=0123456789'
content = pytesseract.image_to_string(image, lang='chi_sim')
print(content)

3. 實戰(zhàn)案例–實現(xiàn)古詩文網(wǎng)驗證碼自動識別登錄

import pytesseract
from PIL import Image
from selenium import webdriver


def save_captcha(path):
    driver = webdriver.Chrome()  # 創(chuàng)建瀏覽器對象
    driver.maximize_window()
    driver.implicitly_wait(10)
    driver.get(url=url)
    image = driver.find_element_by_id('imgCode')
    image.screenshot(path)
    return driver


def recognize_captcha(captcha_path):
    captcha = Image.open(captcha_path)  # 打開圖片
    grap = captcha.convert('L')  # 對圖片進(jìn)行灰度化處理
    data = grap.load()  # 將圖片對象加載成數(shù)據(jù)
    w, h = captcha.size  # 獲取圖片的大小(寬度,高度)
    # 圖片二值化處理
    for x in range(w):
        for y in range(h):
            if data[x, y]  140:
                data[x, y] = 0
            else:
                data[x, y] = 255
    code = pytesseract.image_to_string(grap)  # 對圖片進(jìn)行識別
    return code


def login(driver, code):
    flag = True
    email = '1242931802@qq.com' # 注冊的古詩文網(wǎng)賬號和密碼
    password = 'xxxx'
    try:
        driver.find_element_by_id('email').send_keys(email)
        driver.find_element_by_id('pwd').send_keys(password)
        driver.find_element_by_id('code').send_keys(code)
        driver.implicitly_wait(10)
        driver.find_element_by_id('denglu').click()
    except Exception as ex:
        flag = False
    return flag


if __name__ == '__main__':
    url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
    captcha_path = './captcha.png'
    count = 1
    driver = save_captcha(captcha_path)  # 獲取驅(qū)動
    code = recognize_captcha(captcha_path)  # 獲取驗證碼
    print('識別驗證碼為:', code)
    if login(driver, code):
        driver.quit()

效果如下(有時候第一次可能識別失敗,可以寫個循環(huán)邏輯讓它多識別幾次,一般程序運行1-3次基本會識別成功):

總結(jié)

到此這篇關(guān)于python實現(xiàn)簡單驗證碼識別的文章就介紹到這了,更多相關(guān)python驗證碼識別內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • 教你如何用Python實現(xiàn)人臉識別(含源代碼)
  • 怎么用Python識別手勢數(shù)字
  • python 如何做一個識別率百分百的OCR
  • 如何利用Python識別圖片中的文字詳解
  • Python利用機器學(xué)習(xí)算法實現(xiàn)垃圾郵件的識別

標(biāo)簽:泉州 洛陽 岳陽 怒江 吉林 長春 清遠(yuǎn) 安慶

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《python簡單驗證碼識別的實現(xiàn)過程》,本文關(guān)鍵詞  python,簡單,驗證,碼識,別的,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《python簡單驗證碼識別的實現(xiàn)過程》相關(guān)的同類信息!
  • 本頁收集關(guān)于python簡單驗證碼識別的實現(xiàn)過程的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章