99在线精品视频高潮喷吹,免费特黄一级欧美大片,亚洲人成网站影音先锋播放

主頁(yè) > 知識(shí)庫(kù) > Redis 中的布隆過濾器的實(shí)現(xiàn)

Redis 中的布隆過濾器的實(shí)現(xiàn)

什么是『布隆過濾器』

布隆過濾器是一個(gè)神奇的數(shù)據(jù)結(jié)構(gòu)，可以用來(lái)判斷一個(gè)元素是否在一個(gè)集合中。很常用的一個(gè)功能是用來(lái)去重。在爬蟲中常見的一個(gè)需求：目標(biāo)網(wǎng)站 URL 千千萬(wàn)，怎么判斷某個(gè) URL 爬蟲是否寵幸過？簡(jiǎn)單點(diǎn)可以爬蟲每采集過一個(gè) URL，就把這個(gè) URL 存入數(shù)據(jù)庫(kù)中，每次一個(gè)新的 URL 過來(lái)就到數(shù)據(jù)庫(kù)查詢下是否訪問過。

select id from table where url = 'https://jaychen.cc'

但是隨著爬蟲爬過的 URL 越來(lái)越多，每次請(qǐng)求前都要訪問數(shù)據(jù)庫(kù)一次，并且對(duì)于這種字符串的 SQL 查詢效率并不高。除了數(shù)據(jù)庫(kù)之外，使用 Redis 的 set 結(jié)構(gòu)也可以滿足這個(gè)需求，并且性能優(yōu)于數(shù)據(jù)庫(kù)。但是 Redis 也存在一個(gè)問題：耗費(fèi)過多的內(nèi)存。這個(gè)時(shí)候布隆過濾器就很橫的出場(chǎng)了：這個(gè)問題讓我來(lái)。

相比于數(shù)據(jù)庫(kù)和 Redis，使用布隆過濾器可以很好的避免性能和內(nèi)存占用的問題。

布隆過濾器本質(zhì)是一個(gè)位數(shù)組，位數(shù)組就是數(shù)組的每個(gè)元素都只占用 1 bit 。每個(gè)元素只能是 0 或者 1。這樣申請(qǐng)一個(gè) 10000 個(gè)元素的位數(shù)組只占用 10000 / 8 = 1250 B 的空間。布隆過濾器除了一個(gè)位數(shù)組，還有 K 個(gè)哈希函數(shù)。當(dāng)一個(gè)元素加入布隆過濾器中的時(shí)候，會(huì)進(jìn)行如下操作：

使用 K 個(gè)哈希函數(shù)對(duì)元素值進(jìn)行 K 次計(jì)算，得到 K 個(gè)哈希值。
根據(jù)得到的哈希值，在位數(shù)組中把對(duì)應(yīng)下標(biāo)的值置為 1。

舉個(gè)🌰，假設(shè)布隆過濾器有 3 個(gè)哈希函數(shù)：f1, f2, f3 和一個(gè)位數(shù)組 arr?，F(xiàn)在要把 https://jaychen.cc 插入布隆過濾器中：

對(duì)值進(jìn)行三次哈希計(jì)算，得到三個(gè)值 n1, n2, n3。
把位數(shù)組中三個(gè)元素 arr[n1], arr[n2], arr[3] 置為 1。

當(dāng)要判斷一個(gè)值是否在布隆過濾器中，對(duì)元素再次進(jìn)行哈希計(jì)算，得到值之后判斷位數(shù)組中的每個(gè)元素是否都為 1，如果值都為 1，那么說(shuō)明這個(gè)值在布隆過濾器中，如果存在一個(gè)值不為 1，說(shuō)明該元素不在布隆過濾器中。

看不懂文字看下面的靈魂畫手的圖解釋👇👇👇

看了上面的說(shuō)明，必然會(huì)提出一個(gè)問題：當(dāng)插入的元素原來(lái)越多，位數(shù)組中被置為 1 的位置就越多，當(dāng)一個(gè)不在布隆過濾器中的元素，經(jīng)過哈希計(jì)算之后，得到的值在位數(shù)組中查詢，有可能這些位置也都被置為 1。這樣一個(gè)不存在布隆過濾器中的也有可能被誤判成在布隆過濾器中。但是如果布隆過濾器判斷說(shuō)一個(gè)元素不在布隆過濾器中，那么這個(gè)值就一定不在布隆過濾器中。簡(jiǎn)單來(lái)說(shuō)：

布隆過濾器說(shuō)某個(gè)元素在，可能會(huì)被誤判。
布隆過濾器說(shuō)某個(gè)元素不在，那么一定不在。

這個(gè)布隆過濾器的缺陷放到上面爬蟲的需求中，可能存在某些沒有訪問過的 URL 可能會(huì)被誤判為訪問過，但是如果是訪問過的 URL 一定不會(huì)被誤判為沒訪問過。

Redis 中的布隆過濾器

redis 在 4.0 的版本中加入了 module 功能，布隆過濾器可以通過 module 的形式添加到 redis 中，所以使用 redis 4.0 以上的版本可以通過加載 module 來(lái)使用 redis 中的布隆過濾器。但是這不是最簡(jiǎn)單的方式，使用 docker 可以直接在 redis 中體驗(yàn)布隆過濾器。

> docker run -d -p 6379:6379 --name bloomfilter redislabs/rebloom
> docker exec -it bloomfilter redis-cli

redis 布隆過濾器主要就兩個(gè)命令：

bf.add 添加元素到布隆過濾器中：bf.add urls https://jaychen.cc。
bf.exists 判斷某個(gè)元素是否在過濾器中：bf.exists urls https://jaychen.cc。

上面說(shuō)過布隆過濾器存在誤判的情況，在 redis 中有兩個(gè)值決定布隆過濾器的準(zhǔn)確率：

error_rate ：允許布隆過濾器的錯(cuò)誤率，這個(gè)值越低過濾器的位數(shù)組的大小越大，占用空間也就越大。
initial_size ：布隆過濾器可以儲(chǔ)存的元素個(gè)數(shù)，當(dāng)實(shí)際存儲(chǔ)的元素個(gè)數(shù)超過這個(gè)值之后，過濾器的準(zhǔn)確率會(huì)下降。

redis 中有一個(gè)命令可以來(lái)設(shè)置這兩個(gè)值：

bf.reserve urls 0.01 100

三個(gè)參數(shù)的含義：

第一個(gè)值是過濾器的名字。
第二個(gè)值為 error_rate 的值。
第三個(gè)值為 initial_size 的值。

使用這個(gè)命令要注意一點(diǎn)：執(zhí)行這個(gè)命令之前過濾器的名字應(yīng)該不存在，如果執(zhí)行之前就存在會(huì)報(bào)錯(cuò)：(error) ERR item exists

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

布隆過濾器的概述及Python實(shí)現(xiàn)方法
Python+Redis實(shí)現(xiàn)布隆過濾器
python實(shí)現(xiàn)布隆過濾器及原理解析
淺析python實(shí)現(xiàn)布隆過濾器及Redis中的緩存穿透原理

標(biāo)簽：南寧甘南泰州畢節(jié) 定州伊春拉薩河源

巨人網(wǎng)絡(luò)通訊聲明：本文標(biāo)題《Redis 中的布隆過濾器的實(shí)現(xiàn)》，本文關(guān)鍵詞 Redis,中的,布隆,過濾器,；如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題，煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們，我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò)，涉及言論、版權(quán)與本站無(wú)關(guān)。