傳統(tǒng)MySQL+ Memcached架構(gòu)遇到的問題
實(shí)際MySQL是適合進(jìn)行海量數(shù)據(jù)存儲(chǔ)的,通過Memcached將熱點(diǎn)數(shù)據(jù)加載到cache,加速訪問,很多公司都曾經(jīng)使用過這樣的架構(gòu),但隨著業(yè)務(wù)數(shù)據(jù)量的不斷增加,和訪問量的持續(xù)增長,我們遇到了很多問題:
1.MySQL需要不斷進(jìn)行拆庫拆表,Memcached也需不斷跟著擴(kuò)容,擴(kuò)容和維護(hù)工作占據(jù)大量開發(fā)時(shí)間。
2.Memcached與MySQL數(shù)據(jù)庫數(shù)據(jù)一致性問題。
3.Memcached數(shù)據(jù)命中率低或down機(jī),大量訪問直接穿透到DB,MySQL無法支撐。
4.跨機(jī)房cache同步問題。
眾多NoSQL百花齊放,如何選擇
最近幾年,業(yè)界不斷涌現(xiàn)出很多各種各樣的NoSQL產(chǎn)品,那么如何才能正確地使用好這些產(chǎn)品,最大化地發(fā)揮其長處,是我們需要深入研究和思考的問題,實(shí)際歸根結(jié)底最重要的是了解這些產(chǎn)品的定位,并且了解到每款產(chǎn)品的tradeoffs,在實(shí)際應(yīng)用中做到揚(yáng)長避短,總體上這些NoSQL主要用于解決以下幾種問題
1.少量數(shù)據(jù)存儲(chǔ),高速讀寫訪問。此類產(chǎn)品通過數(shù)據(jù)全部in-momery 的方式來保證高速訪問,同時(shí)提供數(shù)據(jù)落地的功能,實(shí)際這正是Redis最主要的適用場景。
2.海量數(shù)據(jù)存儲(chǔ),分布式系統(tǒng)支持,數(shù)據(jù)一致性保證,方便的集群節(jié)點(diǎn)添加/刪除。
3.這方面最具代表性的是dynamo和bigtable 2篇論文所闡述的思路。前者是一個(gè)完全無中心的設(shè)計(jì),節(jié)點(diǎn)之間通過gossip方式傳遞集群信息,數(shù)據(jù)保證最終一致性,后者是一個(gè)中心化的方案設(shè)計(jì),通過類似一個(gè)分布式鎖服務(wù)來保證強(qiáng)一致性,數(shù)據(jù)寫入先寫內(nèi)存和redo log,然后定期compat歸并到磁盤上,將隨機(jī)寫優(yōu)化為順序?qū)?,提高寫入性能?/p>
4.Schema free,auto-sharding等。比如目前常見的一些文檔數(shù)據(jù)庫都是支持schema-free的,直接存儲(chǔ)json格式數(shù)據(jù),并且支持auto-sharding等功能,比如mongodb。
面對這些不同類型的NoSQL產(chǎn)品,我們需要根據(jù)我們的業(yè)務(wù)場景選擇最合適的產(chǎn)品。
Redis適用場景,如何正確的使用
前面已經(jīng)分析過,Redis最適合所有數(shù)據(jù)in-momory的場景,雖然Redis也提供持久化功能,但實(shí)際更多的是一個(gè)disk-backed的功能,跟傳統(tǒng)意義上的持久化有比較大的差別,那么可能大家就會(huì)有疑問,似乎Redis更像一個(gè)加強(qiáng)版的Memcached,那么何時(shí)使用Memcached,何時(shí)使用Redis呢?
如果簡單地比較Redis與Memcached的區(qū)別,大多數(shù)都會(huì)得到以下觀點(diǎn):
1 Redis不僅僅支持簡單的k/v類型的數(shù)據(jù),同時(shí)還提供list,set,zset,hash等數(shù)據(jù)結(jié)構(gòu)的存儲(chǔ)。
2 Redis支持?jǐn)?shù)據(jù)的備份,即master-slave模式的數(shù)據(jù)備份。
3 Redis支持?jǐn)?shù)據(jù)的持久化,可以將內(nèi)存中的數(shù)據(jù)保持在磁盤中,重啟的時(shí)候可以再次加載進(jìn)行使用。
拋開這些,可以深入到Redis內(nèi)部構(gòu)造去觀察更加本質(zhì)的區(qū)別,理解Redis的設(shè)計(jì)。
在Redis中,并不是所有的數(shù)據(jù)都一直存儲(chǔ)在內(nèi)存中的。這是和Memcached相比一個(gè)最大的區(qū)別。Redis只會(huì)緩存所有的 key的信息,如果Redis發(fā)現(xiàn)內(nèi)存的使用量超過了某一個(gè)閥值,將觸發(fā)swap的操作,Redis根據(jù)“swappability = age*log(size_in_memory)”計(jì) 算出哪些key對應(yīng)的value需要swap到磁盤。然后再將這些key對應(yīng)的value持久化到磁盤中,同時(shí)在內(nèi)存中清除。這種特性使得Redis可以 保持超過其機(jī)器本身內(nèi)存大小的數(shù)據(jù)。當(dāng)然,機(jī)器本身的內(nèi)存必須要能夠保持所有的key,畢竟這些數(shù)據(jù)是不會(huì)進(jìn)行swap操作的。同時(shí)由于Redis將內(nèi)存 中的數(shù)據(jù)swap到磁盤中的時(shí)候,提供服務(wù)的主線程和進(jìn)行swap操作的子線程會(huì)共享這部分內(nèi)存,所以如果更新需要swap的數(shù)據(jù),Redis將阻塞這個(gè) 操作,直到子線程完成swap操作后才可以進(jìn)行修改。
使用Redis特有內(nèi)存模型前后的情況對比:
VM off: 300k keys, 4096 bytes values: 1.3G used
VM on: 300k keys, 4096 bytes values: 73M used
VM off: 1 million keys, 256 bytes values: 430.12M used
VM on: 1 million keys, 256 bytes values: 160.09M used
VM on: 1 million keys, values as large as you want, still: 160.09M used
當(dāng) 從Redis中讀取數(shù)據(jù)的時(shí)候,如果讀取的key對應(yīng)的value不在內(nèi)存中,那么Redis就需要從swap文件中加載相應(yīng)數(shù)據(jù),然后再返回給請求方。 這里就存在一個(gè)I/O線程池的問題。在默認(rèn)的情況下,Redis會(huì)出現(xiàn)阻塞,即完成所有的swap文件加載后才會(huì)相應(yīng)。這種策略在客戶端的數(shù)量較小,進(jìn)行 批量操作的時(shí)候比較合適。但是如果將Redis應(yīng)用在一個(gè)大型的網(wǎng)站應(yīng)用程序中,這顯然是無法滿足大并發(fā)的情況的。所以Redis運(yùn)行我們設(shè)置I/O線程 池的大小,對需要從swap文件中加載相應(yīng)數(shù)據(jù)的讀取請求進(jìn)行并發(fā)操作,減少阻塞的時(shí)間。
如果希望在海量數(shù)據(jù)的環(huán)境中使用好Redis,我相信理解Redis的內(nèi)存設(shè)計(jì)和阻塞的情況是不可缺少的。
補(bǔ)充的知識(shí)點(diǎn):
memcached和redis的比較
1 網(wǎng)絡(luò)IO模型
Memcached是多線程,非阻塞IO復(fù)用的網(wǎng)絡(luò)模型,分為監(jiān)聽主線程和worker子線程,監(jiān)聽線程監(jiān)聽網(wǎng)絡(luò)連接,接受請求后,將連接描述字pipe 傳遞給worker線程,進(jìn)行讀寫IO, 網(wǎng)絡(luò)層使用libevent封裝的事件庫,多線程模型可以發(fā)揮多核作用,但是引入了cache coherency和鎖的問題,比如,Memcached最常用的stats 命令,實(shí)際Memcached所有操作都要對這個(gè)全局變量加鎖,進(jìn)行計(jì)數(shù)等工作,帶來了性能損耗。
(Memcached網(wǎng)絡(luò)IO模型)
Redis使用單線程的IO復(fù)用模型,自己封裝了一個(gè)簡單的AeEvent事件處理框架,主要實(shí)現(xiàn)了epoll、kqueue和select,對于單純只有IO操作來說,單線程可以將速度優(yōu)勢發(fā)揮到最大,但是Redis也提供了一些簡單的計(jì)算功能,比如排序、聚合等,對于這些操作,單線程模型實(shí)際會(huì)嚴(yán)重影響整體吞吐量,CPU計(jì)算過程中,整個(gè)IO調(diào)度都是被阻塞住的。
2.內(nèi)存管理方面
Memcached使用預(yù)分配的內(nèi)存池的方式,使用slab和大小不同的chunk來管理內(nèi)存,Item根據(jù)大小選擇合適的chunk存儲(chǔ),內(nèi)存池的方式可以省去申請/釋放內(nèi)存的開銷,并且能減小內(nèi)存碎片產(chǎn)生,但這種方式也會(huì)帶來一定程度上的空間浪費(fèi),并且在內(nèi)存仍然有很大空間時(shí),新的數(shù)據(jù)也可能會(huì)被剔除,原因可以參考Timyang的文章:http://timyang.net/data/Memcached-lru-evictions/
Redis使用現(xiàn)場申請內(nèi)存的方式來存儲(chǔ)數(shù)據(jù),并且很少使用free-list等方式來優(yōu)化內(nèi)存分配,會(huì)在一定程度上存在內(nèi)存碎片,Redis跟據(jù)存儲(chǔ)命令參數(shù),會(huì)把帶過期時(shí)間的數(shù)據(jù)單獨(dú)存放在一起,并把它們稱為臨時(shí)數(shù)據(jù),非臨時(shí)數(shù)據(jù)是永遠(yuǎn)不會(huì)被剔除的,即便物理內(nèi)存不夠,導(dǎo)致swap也不會(huì)剔除任何非臨時(shí)數(shù)據(jù)(但會(huì)嘗試剔除部分臨時(shí)數(shù)據(jù)),這點(diǎn)上Redis更適合作為存儲(chǔ)而不是cache。
3.數(shù)據(jù)一致性問題
Memcached提供了cas命令,可以保證多個(gè)并發(fā)訪問操作同一份數(shù)據(jù)的一致性問題。 Redis沒有提供cas 命令,并不能保證這點(diǎn),不過Redis提供了事務(wù)的功能,可以保證一串 命令的原子性,中間不會(huì)被任何操作打斷。
4.存儲(chǔ)方式及其它方面
Memcached基本只支持簡單的key-value存儲(chǔ),不支持枚舉,不支持持久化和復(fù)制等功能
Redis除key/value之外,還支持list,set,sorted set,hash等眾多數(shù)據(jù)結(jié)構(gòu),提供了KEYS
進(jìn)行枚舉操作,但不能在線上使用,如果需要枚舉線上數(shù)據(jù),Redis提供了工具可以直接掃描其dump文件,枚舉出所有數(shù)據(jù),Redis還同時(shí)提供了持久化和復(fù)制等功能。
5.關(guān)于不同語言的客戶端支持
在不同語言的客戶端方面,Memcached和Redis都有豐富的第三方客戶端可供選擇,不過因?yàn)镸emcached發(fā)展的時(shí)間更久一些,目前看在客戶端支持方面,Memcached的很多客戶端更加成熟穩(wěn)定,而Redis由于其協(xié)議本身就比Memcached復(fù)雜,加上作者不斷增加新的功能等,對應(yīng)第三方客戶端跟進(jìn)速度可能會(huì)趕不上,有時(shí)可能需要自己在第三方客戶端基礎(chǔ)上做些修改才能更好的使用。
根據(jù)以上比較不難看出,當(dāng)我們不希望數(shù)據(jù)被踢出,或者需要除key/value之外的更多數(shù)據(jù)類型時(shí),或者需要落地功能時(shí),使用Redis比使用Memcached更合適。
關(guān)于Redis的一些周邊功能
Redis除了作為存儲(chǔ)之外還提供了一些其它方面的功能,比如聚合計(jì)算、pubsub、scripting等,對于此類功能需要了解其實(shí)現(xiàn)原理,清楚地了解到它的局限性后,才能正確的使用,比如pubsub功能,這個(gè)實(shí)際是沒有任何持久化支持的,消費(fèi)方連接閃斷或重連之間過來的消息是會(huì)全部丟失的,又比如聚合計(jì)算和scripting等功能受Redis單線程模型所限,是不可能達(dá)到很高的吞吐量的,需要謹(jǐn)慎使用。
總的來說Redis作者是一位非常勤奮的開發(fā)者,可以經(jīng)??吹阶髡咴趪L試著各種不同的新鮮想法和思路,針對這些方面的功能就要求我們需要深入了解后再使用。
總結(jié):
1.Redis使用最佳方式是全部數(shù)據(jù)in-memory。
2.Redis更多場景是作為Memcached的替代者來使用。
3.當(dāng)需要除key/value之外的更多數(shù)據(jù)類型支持時(shí),使用Redis更合適。
4.當(dāng)存儲(chǔ)的數(shù)據(jù)不能被剔除時(shí),使用Redis更合適。
談?wù)凪emcached與Redis
1. Memcached簡介
Memcached是以LiveJurnal旗下Danga Interactive公司的Bard Fitzpatric為首開發(fā)的高性能分布式內(nèi)存緩存服務(wù)器。其本質(zhì)上就是一個(gè)內(nèi)存key-value數(shù)據(jù)庫,但是不支持?jǐn)?shù)據(jù)的持久化,服務(wù)器關(guān)閉之后數(shù)據(jù)全部丟失。Memcached使用C語言開發(fā),在大多數(shù)像Linux、BSD和Solaris等POSIX系統(tǒng)上,只要安裝了libevent即可使用。在Windows下,它也有一個(gè)可用的非官方版本(http://code.jellycan.com/memcached/)。Memcached的客戶端軟件實(shí)現(xiàn)非常多,包括C/C++, PHP, Java, Python, Ruby, Perl, Erlang, Lua等。當(dāng)前Memcached使用廣泛,除了LiveJournal以外還有Wikipedia、Flickr、Twitter、Youtube和WordPress等。
在Window系統(tǒng)下,Memcached的安裝非常方便,只需從以上給出的地址下載可執(zhí)行軟件然后運(yùn)行memcached.exe –d install即可完成安裝。在Linux等系統(tǒng)下,我們首先需要安裝libevent,然后從獲取源碼,make make install即可。默認(rèn)情況下,Memcached的服務(wù)器啟動(dòng)程序會(huì)安裝到/usr/local/bin目錄下。在啟動(dòng)Memcached時(shí),我們可以為其配置不同的啟動(dòng)參數(shù)。
1.1 Memcache配置
Memcached服務(wù)器在啟動(dòng)時(shí)需要對關(guān)鍵的參數(shù)進(jìn)行配置,下面我們就看一看Memcached在啟動(dòng)時(shí)需要設(shè)定哪些關(guān)鍵參數(shù)以及這些參數(shù)的作用。
1)-p num> Memcached的TCP監(jiān)聽端口,缺省配置為11211;
2)-U num> Memcached的UDP監(jiān)聽端口,缺省配置為11211,為0時(shí)表示關(guān)閉UDP監(jiān)聽;
3)-s file> Memcached監(jiān)聽的UNIX套接字路徑;
4)-a mask> 訪問UNIX套接字的八進(jìn)制掩碼,缺省配置為0700;
5)-l addr> 監(jiān)聽的服務(wù)器IP地址,默認(rèn)為所有網(wǎng)卡;
6)-d 為Memcached服務(wù)器啟動(dòng)守護(hù)進(jìn)程;
7)-r 最大core文件大?。?/p>
8)-u username> 運(yùn)行Memcached的用戶,如果當(dāng)前為root的話需要使用此參數(shù)指定用戶;
9)-m num> 分配給Memcached使用的內(nèi)存數(shù)量,單位是MB;
10)-M 指示Memcached在內(nèi)存用光的時(shí)候返回錯(cuò)誤而不是使用LRU算法移除數(shù)據(jù)記錄;
11)-c num> 最大并發(fā)連數(shù),缺省配置為1024;
12)-v –vv –vvv 設(shè)定服務(wù)器端打印的消息的詳細(xì)程度,其中-v僅打印錯(cuò)誤和警告信息,-vv在-v的基礎(chǔ)上還會(huì)打印客戶端的命令和相應(yīng),-vvv在-vv的基礎(chǔ)上還會(huì)打印內(nèi)存狀態(tài)轉(zhuǎn)換信息;
13)-f factor> 用于設(shè)置chunk大小的遞增因子;
14)-n bytes> 最小的chunk大小,缺省配置為48個(gè)字節(jié);
15)-t num> Memcached服務(wù)器使用的線程數(shù),缺省配置為4個(gè);
16)-L 嘗試使用大內(nèi)存頁;
17)-R 每個(gè)事件的最大請求數(shù),缺省配置為20個(gè);
18)-C 禁用CAS,CAS模式會(huì)帶來8個(gè)字節(jié)的冗余;
2. Redis簡介
Redis是一個(gè)開源的key-value存儲(chǔ)系統(tǒng)。與Memcached類似,Redis將大部分?jǐn)?shù)據(jù)存儲(chǔ)在內(nèi)存中,支持的數(shù)據(jù)類型包括:字符串、哈希表、鏈表、集合、有序集合以及基于這些數(shù)據(jù)類型的相關(guān)操作。Redis使用C語言開發(fā),在大多數(shù)像Linux、BSD和Solaris等POSIX系統(tǒng)上無需任何外部依賴就可以使用。Redis支持的客戶端語言也非常豐富,常用的計(jì)算機(jī)語言如C、C#、C++、Object-C、PHP、Python、Java、Perl、Lua、Erlang等均有可用的客戶端來訪問Redis服務(wù)器。當(dāng)前Redis的應(yīng)用已經(jīng)非常廣泛,國內(nèi)像新浪、淘寶,國外像Flickr、Github等均在使用Redis的緩存服務(wù)。
Redis的安裝非常方便,只需從http://redis.io/download獲取源碼,然后make make install即可。默認(rèn)情況下,Redis的服務(wù)器啟動(dòng)程序和客戶端程序會(huì)安裝到/usr/local/bin目錄下。在啟動(dòng)Redis服務(wù)器時(shí),我們需要為其指定一個(gè)配置文件,缺省情況下配置文件在Redis的源碼目錄下,文件名為redis.conf。
2.1 Redis配置文件
為了對Redis的系統(tǒng)實(shí)現(xiàn)有一個(gè)直接的認(rèn)識(shí),我們首先來看一下Redis的配置文件中定義了哪些主要參數(shù)以及這些參數(shù)的作用。
1)daemonize no 默認(rèn)情況下,redis不是在后臺(tái)運(yùn)行的。如果需要在后臺(tái)運(yùn)行,把該項(xiàng)的值更改為yes;
2)pidfile /var/run/redis.pid當(dāng)Redis在后臺(tái)運(yùn)行的時(shí)候,Redis默認(rèn)會(huì)把pid文件放在/var/run/redis.pid,你可以配置到其他地址。當(dāng)運(yùn)行多個(gè)redis服務(wù)時(shí),需要指定不同的pid文件和端口;
3)port 6379指定redis運(yùn)行的端口,默認(rèn)是6379;
4)bind 127.0.0.1 指定redis只接收來自于該IP地址的請求,如果不進(jìn)行設(shè)置,那么將處理所有請求。在生產(chǎn)環(huán)境中最好設(shè)置該項(xiàng);
5)loglevel debug 指定日志記錄級(jí)別,其中Redis總共支持四個(gè)級(jí)別:debug、verbose、notice、warning,默認(rèn)為verbose。debug表示記錄很多信息,用于開發(fā)和測試。verbose表示記錄有用的信息,但不像debug會(huì)記錄那么多。notice表示普通的verbose,常用于生產(chǎn)環(huán)境。
warning 表示只有非常重要或者嚴(yán)重的信息會(huì)記錄到日志;
6)logfile /var/log/redis/redis.log 配置log文件地址,默認(rèn)值為stdout。若后臺(tái)模式會(huì)輸出到/dev/null;
7)databases 16 可用數(shù)據(jù)庫數(shù),默認(rèn)值為16,默認(rèn)數(shù)據(jù)庫為0,數(shù)據(jù)庫范圍在0-(database-1)之間;
8)save 900 1保存數(shù)據(jù)到磁盤,格式為save seconds> changes>,指出在多長時(shí)間內(nèi),有多少次更新操作,就將數(shù)據(jù)同步到數(shù)據(jù)文件rdb。相當(dāng)于條件觸發(fā)抓取快照,這個(gè)可以多個(gè)條件配合。save 900 1就表示900秒內(nèi)至少有1個(gè)key被改變就保存數(shù)據(jù)到磁盤;
9)rdbcompression yes 存儲(chǔ)至本地?cái)?shù)據(jù)庫時(shí)(持久化到rdb文件)是否壓縮數(shù)據(jù),默認(rèn)為yes;
10)dbfilename dump.rdb本地持久化數(shù)據(jù)庫文件名,默認(rèn)值為dump.rdb;
11)dir ./ 工作目錄,數(shù)據(jù)庫鏡像備份的文件放置的路徑。這里的路徑跟文件名要分開配置是因?yàn)閞edis在進(jìn)行備份時(shí),先會(huì)將當(dāng)前數(shù)據(jù)庫的狀態(tài)寫入到一個(gè)臨時(shí)文件中,等備份完成時(shí),再把該臨時(shí)文件替換為上面所指定的文件。而這里的臨時(shí)文件和上面所配置的備份文件都會(huì)放在這個(gè)指定的路徑當(dāng)中,AOF文件也會(huì)存放在這個(gè)目錄下面。注意這里必須指定一個(gè)目錄而不是文件;
12)slaveof masterip> masterport> 主從復(fù)制,設(shè)置該數(shù)據(jù)庫為其他數(shù)據(jù)庫的從數(shù)據(jù)庫。設(shè)置當(dāng)本機(jī)為slave服務(wù)時(shí),設(shè)置master服務(wù)的IP地址及端口。在Redis啟動(dòng)時(shí),它會(huì)自動(dòng)從master進(jìn)行數(shù)據(jù)同步;
13)masterauth master-password> 當(dāng)master服務(wù)設(shè)置了密碼保護(hù)時(shí)(用requirepass制定的密碼)slave服務(wù)連接master的密碼;
14)slave-serve-stale-data yes 當(dāng)從庫同主機(jī)失去連接或者復(fù)制正在進(jìn)行,從機(jī)庫有兩種運(yùn)行方式:如果slave-serve-stale-data設(shè)置為yes(默認(rèn)設(shè)置),從庫會(huì)繼續(xù)相應(yīng)客戶端的請求。如果slave-serve-stale-data是指為no,除去INFO和SLAVOF命令之外的任何請求都會(huì)返回一個(gè)錯(cuò)誤"SYNC with master in progress";
15)repl-ping-slave-period 10從庫會(huì)按照一個(gè)時(shí)間間隔向主庫發(fā)送PING,可以通過repl-ping-slave-period設(shè)置這個(gè)時(shí)間間隔,默認(rèn)是10秒;
16)repl-timeout 60 設(shè)置主庫批量數(shù)據(jù)傳輸時(shí)間或者ping回復(fù)時(shí)間間隔,默認(rèn)值是60秒,一定要確保repl-timeout大于repl-ping-slave-period;
17)requirepass foobared 設(shè)置客戶端連接后進(jìn)行任何其他指定前需要使用的密碼。因?yàn)閞edis速度相當(dāng)快,所以在一臺(tái)比較好的服務(wù)器下,一個(gè)外部的用戶可以在一秒鐘進(jìn)行150K次的密碼嘗試,這意味著你需要指定非常強(qiáng)大的密碼來防止暴力破解;
18)rename-command CONFIG "" 命令重命名,在一個(gè)共享環(huán)境下可以重命名相對危險(xiǎn)的命令,比如把CONFIG重名為一個(gè)不容易猜測的字符:# rename-command CONFIG b840fc02d524045429941cc15f59e41cb7be6c52。如果想刪除一個(gè)命令,直接把它重命名為一個(gè)空字符""即可:rename-command CONFIG "";
19)maxclients 128設(shè)置同一時(shí)間最大客戶端連接數(shù),默認(rèn)無限制。Redis可以同時(shí)打開的客戶端連接數(shù)為Redis進(jìn)程可以打開的最大文件描述符數(shù)。如果設(shè)置 maxclients 0,表示不作限制。當(dāng)客戶端連接數(shù)到達(dá)限制時(shí),Redis會(huì)關(guān)閉新的連接并向客戶端返回max number of clients
reached錯(cuò)誤信息;
20)maxmemory bytes> 指定Redis最大內(nèi)存限制。Redis在啟動(dòng)時(shí)會(huì)把數(shù)據(jù)加載到內(nèi)存中,達(dá)到最大內(nèi)存后,Redis會(huì)先嘗試清除已到期或即將到期的Key,Redis同時(shí)也會(huì)移除空的list對象。當(dāng)此方法處理后,仍然到達(dá)最大內(nèi)存設(shè)置,將無法再進(jìn)行寫入操作,但仍然可以進(jìn)行讀取操作。注意:Redis新的vm機(jī)制,會(huì)把Key存放內(nèi)存,Value會(huì)存放在swap區(qū);
21)maxmemory-policy volatile-lru 當(dāng)內(nèi)存達(dá)到最大值的時(shí)候Redis會(huì)選擇刪除哪些數(shù)據(jù)呢?有五種方式可供選擇:volatile-lru代表利用LRU算法移除設(shè)置過過期時(shí)間的key (LRU:最近使用 Least Recently Used ),allkeys-lru代表利用LRU算法移除任何key,volatile-random代表移除設(shè)置過過期時(shí)間的隨機(jī)key,allkeys_random代表移除一個(gè)隨機(jī)的key,volatile-ttl代表移除即將過期的key(minor TTL),noeviction代表不移除任何key,只是返回一個(gè)寫錯(cuò)誤。
注意:對于上面的策略,如果沒有合適的key可以移除,寫的時(shí)候Redis會(huì)返回一個(gè)錯(cuò)誤;
22)appendonly no 默認(rèn)情況下,redis會(huì)在后臺(tái)異步的把數(shù)據(jù)庫鏡像備份到磁盤,但是該備份是非常耗時(shí)的,而且備份也不能很頻繁。如果發(fā)生諸如拉閘限電、拔插頭等狀況,那么將造成比較大范圍的數(shù)據(jù)丟失,所以redis提供了另外一種更加高效的數(shù)據(jù)庫備份及災(zāi)難恢復(fù)方式。開啟append only模式之后,redis會(huì)把所接收到的每一次寫操作請求都追加到appendonly.aof文件中。當(dāng)redis重新啟動(dòng)時(shí),會(huì)從該文件恢復(fù)出之前的狀態(tài),但是這樣會(huì)造成appendonly.aof文件過大,所以redis還支持了BGREWRITEAOF指令對appendonly.aof 進(jìn)行重新整理,你可以同時(shí)
開啟asynchronous dumps 和 AOF;
23)appendfilename appendonly.aof AOF文件名稱,默認(rèn)為"appendonly.aof";
24)appendfsync everysec Redis支持三種同步AOF文件的策略: no代表不進(jìn)行同步,系統(tǒng)去操作,always代表每次有寫操作都進(jìn)行同步,everysec代表對寫操作進(jìn)行累積,每秒同步一次,默認(rèn)是"everysec",按照速度和安全折中這是最好的。
25)slowlog-log-slower-than 10000 記錄超過特定執(zhí)行時(shí)間的命令。執(zhí)行時(shí)間不包括I/O計(jì)算,比如連接客戶端,返回結(jié)果等,只是命令執(zhí)行時(shí)間。可以通過兩個(gè)參數(shù)設(shè)置slow log:一個(gè)是告訴Redis執(zhí)行超過多少時(shí)間被記錄的參數(shù)slowlog-log-slower-than(微妙),另一個(gè)是slow
log 的長度。當(dāng)一個(gè)新命令被記錄的時(shí)候最早的命令將被從隊(duì)列中移除,下面的時(shí)間以微妙微單位,因此1000000代表一分鐘。注意制定一個(gè)負(fù)數(shù)將關(guān)閉慢日志,而設(shè)置為0將強(qiáng)制每個(gè)命令都會(huì)記錄;
26)hash-max-zipmap-entries 512 hash-max-zipmap-value 64 當(dāng)hash中包含超過指定元素個(gè)數(shù)并且最大的元素沒有超過臨界時(shí),hash將以一種特殊的編碼方式(大大減少內(nèi)存使用)來存儲(chǔ),這里可以設(shè)置這兩個(gè)臨界值。Redis Hash對應(yīng)Value內(nèi)部實(shí)際就是一個(gè)HashMap,實(shí)際這里會(huì)有2種不同實(shí)現(xiàn)。這個(gè)Hash的成員比較少時(shí)Redis為了節(jié)省內(nèi)存會(huì)采用類似一維數(shù)組的方式來緊湊存儲(chǔ),而不會(huì)采用真正的HashMap結(jié)構(gòu),對應(yīng)的value redisObject的encoding為zipmap。當(dāng)成員數(shù)量增大時(shí)會(huì)自動(dòng)轉(zhuǎn)成真正的HashMap,此時(shí)encoding為ht;
27)list-max-ziplist-entries 512 list數(shù)據(jù)類型多少節(jié)點(diǎn)以下會(huì)采用去指針的緊湊存儲(chǔ)格式;
28)list-max-ziplist-value 64數(shù)據(jù)類型節(jié)點(diǎn)值大小小于多少字節(jié)會(huì)采用緊湊存儲(chǔ)格式;
29)set-max-intset-entries 512 set數(shù)據(jù)類型內(nèi)部數(shù)據(jù)如果全部是數(shù)值型,且包含多少節(jié)點(diǎn)以下會(huì)采用緊湊格式存儲(chǔ);
30)zset-max-ziplist-entries 128 zsort數(shù)據(jù)類型多少節(jié)點(diǎn)以下會(huì)采用去指針的緊湊存儲(chǔ)格式;
31)zset-max-ziplist-value 64 zsort數(shù)據(jù)類型節(jié)點(diǎn)值大小小于多少字節(jié)會(huì)采用緊湊存儲(chǔ)格式。
32)activerehashing yes Redis將在每100毫秒時(shí)使用1毫秒的CPU時(shí)間來對redis的hash表進(jìn)行重新hash,可以降低內(nèi)存的使用。當(dāng)你的使用場景中,有非常嚴(yán)格的實(shí)時(shí)性需要,不能夠接受Redis時(shí)不時(shí)的對請求有2毫秒的延遲的話,把這項(xiàng)配置為no。如果沒有這么嚴(yán)格的實(shí)時(shí)性要求,可以設(shè)置為yes,以便能夠盡可能快的釋放內(nèi)存;
Redis的常用數(shù)據(jù)類型
與Memcached僅支持簡單的key-value結(jié)構(gòu)的數(shù)據(jù)記錄不同,Redis支持的數(shù)據(jù)類型要豐富得多。最為常用的數(shù)據(jù)類型主要由五種:String、Hash、List、Set和Sorted Set。在具體描述這幾種數(shù)據(jù)類型之前,我們先通過一張圖來了解下Redis內(nèi)部內(nèi)存管理中是如何描述這些不同數(shù)據(jù)類型的。
圖1 Redis對象
Redis內(nèi)部使用一個(gè)redisObject對象來表示所有的key和value。redisObject最主要的信息如圖1所示:type代表一個(gè)value對象具體是何種數(shù)據(jù)類型,encoding是不同數(shù)據(jù)類型在redis內(nèi)部的存儲(chǔ)方式,比如:type=string代表value存儲(chǔ)的是一個(gè)普通字符串,那么對應(yīng)的encoding可以是raw或者是int,如果是int則代表實(shí)際redis內(nèi)部是按數(shù)值型類存儲(chǔ)和表示這個(gè)字符串的,當(dāng)然前提是這個(gè)字符串本身可以用數(shù)值表示,比如:"123" "456"這樣的字符串。這里需要特殊說明一下vm字段,只有打開了Redis的虛擬內(nèi)存功能,此字段才會(huì)真正的分配內(nèi)存,該功能默認(rèn)是關(guān)閉狀態(tài)的。通過Figure1我們可以發(fā)現(xiàn)Redis使用redisObject來表示所有的key/value數(shù)據(jù)是比較浪費(fèi)內(nèi)存的,當(dāng)然這些內(nèi)存管理成本的付出主要也是為了給Redis不同數(shù)據(jù)類型提供一個(gè)統(tǒng)一的管理接口,實(shí)際作者也提供了多種方法幫助我們盡量節(jié)省內(nèi)存使用。下面我們先來逐一的分析下這五種數(shù)據(jù)類型的使用和內(nèi)部實(shí)現(xiàn)方式。
1)String
常用命令:set/get/decr/incr/mget等;
應(yīng)用場景:String是最常用的一種數(shù)據(jù)類型,普通的key/value存儲(chǔ)都可以歸為此類;
實(shí)現(xiàn)方式:String在redis內(nèi)部存儲(chǔ)默認(rèn)就是一個(gè)字符串,被redisObject所引用,當(dāng)遇到incr、decr等操作時(shí)會(huì)轉(zhuǎn)成數(shù)值型進(jìn)行計(jì)算,此時(shí)redisObject的encoding字段為int。
2)Hash
常用命令:hget/hset/hgetall等
應(yīng)用場景:我們要存儲(chǔ)一個(gè)用戶信息對象數(shù)據(jù),其中包括用戶ID、用戶姓名、年齡和生日,通過用戶ID我們希望獲取該用戶的姓名或者年齡或者生日;
實(shí)現(xiàn)方式:Redis的Hash實(shí)際是內(nèi)部存儲(chǔ)的Value為一個(gè)HashMap,并提供了直接存取這個(gè)Map成員的接口。如圖2所示,Key是用戶ID, value是一個(gè)Map。這個(gè)Map的key是成員的屬性名,value是屬性值。這樣對數(shù)據(jù)的修改和存取都可以直接通過其內(nèi)部Map的Key(Redis里稱內(nèi)部Map的key為field), 也就是通過 key(用戶ID) + field(屬性標(biāo)簽) 就可以操作對應(yīng)屬性數(shù)據(jù)。當(dāng)前HashMap的實(shí)現(xiàn)有兩種方式:當(dāng)HashMap的成員比較少時(shí)Redis為了節(jié)省內(nèi)存會(huì)采用類似一維數(shù)組的方式來緊湊存儲(chǔ),而不會(huì)采用真正的HashMap結(jié)構(gòu),這時(shí)對應(yīng)的value的redisObject的encoding為zipmap,當(dāng)成員數(shù)量增大時(shí)會(huì)自動(dòng)轉(zhuǎn)成真正的HashMap,此時(shí)encoding為ht。
圖2 Redis的Hash數(shù)據(jù)類型
3)List
常用命令:lpush/rpush/lpop/rpop/lrange等;
應(yīng)用場景:Redis list的應(yīng)用場景非常多,也是Redis最重要的數(shù)據(jù)結(jié)構(gòu)之一,比如twitter的關(guān)注列表,粉絲列表等都可以用Redis的list結(jié)構(gòu)來實(shí)現(xiàn);
實(shí)現(xiàn)方式:Redis list的實(shí)現(xiàn)為一個(gè)雙向鏈表,即可以支持反向查找和遍歷,更方便操作,不過帶來了部分額外的內(nèi)存開銷,Redis內(nèi)部的很多實(shí)現(xiàn),包括發(fā)送緩沖隊(duì)列等也都是用的這個(gè)數(shù)據(jù)結(jié)構(gòu)。
4)Set
常用命令:sadd/spop/smembers/sunion等;
應(yīng)用場景:Redis set對外提供的功能與list類似是一個(gè)列表的功能,特殊之處在于set是可以自動(dòng)排重的,當(dāng)你需要存儲(chǔ)一個(gè)列表數(shù)據(jù),又不希望出現(xiàn)重復(fù)數(shù)據(jù)時(shí),set是一個(gè)很好的選擇,并且set提供了判斷某個(gè)成員是否在一個(gè)set集合內(nèi)的重要接口,這個(gè)也是list所不能提供的;
實(shí)現(xiàn)方式:set 的內(nèi)部實(shí)現(xiàn)是一個(gè) value永遠(yuǎn)為null的HashMap,實(shí)際就是通過計(jì)算hash的方式來快速排重的,這也是set能提供判斷一個(gè)成員是否在集合內(nèi)的原因。
5)Sorted Set
常用命令:zadd/zrange/zrem/zcard等;
應(yīng)用場景:Redis sorted set的使用場景與set類似,區(qū)別是set不是自動(dòng)有序的,而sorted set可以通過用戶額外提供一個(gè)優(yōu)先級(jí)(score)的參數(shù)來為成員排序,并且是插入有序的,即自動(dòng)排序。當(dāng)你需要一個(gè)有序的并且不重復(fù)的集合列表,那么可以選擇sorted set數(shù)據(jù)結(jié)構(gòu),比如
twitter 的public timeline可以以發(fā)表時(shí)間作為score來存儲(chǔ),這樣獲取時(shí)就是自動(dòng)按時(shí)間排好序的。
實(shí)現(xiàn)方式:Redis sorted set的內(nèi)部使用HashMap和跳躍表(SkipList)來保證數(shù)據(jù)的存儲(chǔ)和有序,HashMap里放的是成員到score的映射,而跳躍表里存放的是所有的成員,排序依據(jù)是HashMap里存的score,使用跳躍表的結(jié)構(gòu)可以獲得比較高的查找效率,并且在實(shí)現(xiàn)上比較簡單。
2.3 Redis的持久化
Redis雖然是基于內(nèi)存的存儲(chǔ)系統(tǒng),但是它本身是支持內(nèi)存數(shù)據(jù)的持久化的,而且提供兩種主要的持久化策略:RDB快照和AOF日志。我們會(huì)在下文分別介紹這兩種不同的持久化策略。
2.3.1 Redis的AOF日志
Redis支持將當(dāng)前數(shù)據(jù)的快照存成一個(gè)數(shù)據(jù)文件的持久化機(jī)制,即RDB快照。這種方法是非常好理解的,但是一個(gè)持續(xù)寫入的數(shù)據(jù)庫如何生成快照呢?Redis借助了fork命令的copy on write機(jī)制。在生成快照時(shí),將當(dāng)前進(jìn)程fork出一個(gè)子進(jìn)程,然后在子進(jìn)程中循環(huán)所有的數(shù)據(jù),將數(shù)據(jù)
寫成為RDB文件。
我們可以通過Redis的save指令來配置RDB快照生成的時(shí)機(jī),比如你可以配置當(dāng)10分鐘以內(nèi)有100次寫入就生成快照,也可以配置當(dāng)1小時(shí)內(nèi)有1000次寫入就生成快照,也可以多個(gè)規(guī)則一起實(shí)施。這些規(guī)則的定義就在Redis的配置文件中,你也可以通過Redis的CONFIG SET命令在Redis運(yùn)
行時(shí)設(shè)置規(guī)則,不需要重啟Redis。
Redis的RDB文件不會(huì)壞掉,因?yàn)槠鋵懖僮魇窃谝粋€(gè)新進(jìn)程中進(jìn)行的,當(dāng)生成一個(gè)新的RDB文件時(shí),Redis生成的子進(jìn)程會(huì)先將數(shù)據(jù)寫到一個(gè)臨時(shí)文件中,然后通過原子性rename系統(tǒng)調(diào)用將臨時(shí)文件重命名為RDB文件,這樣在任何時(shí)候出現(xiàn)故障,Redis的RDB文件都總是可用的。同時(shí),Redis的RDB文件也是Redis主從同步內(nèi)部實(shí)現(xiàn)中的一環(huán)。
但是,我們可以很明顯的看到,RDB有他的不足,就是一旦數(shù)據(jù)庫出現(xiàn)問題,那么我們的RDB文件中保存的數(shù)據(jù)并不是全新的,從上次RDB文件生成到Redis停機(jī)這段時(shí)間的數(shù)據(jù)全部丟掉了。在某些業(yè)務(wù)下,這是可以忍受的,我們也推薦這些業(yè)務(wù)使用RDB的方式進(jìn)行持久化,因?yàn)殚_啟RDB
的代價(jià)并不高。但是對于另外一些對數(shù)據(jù)安全性要求極高的應(yīng)用,無法容忍數(shù)據(jù)丟失的應(yīng)用,RDB就無能為力了,所以Redis引入了另一個(gè)重要的持久化機(jī)制:AOF日志。
Redis的AOF日志
AOF日志的全稱是append only file,從名字上我們就能看出來,它是一個(gè)追加寫入的日志文件。與一般數(shù)據(jù)庫的binlog不同的是,AOF文件是可識(shí)別的純文本,它的內(nèi)容就是一個(gè)個(gè)的Redis標(biāo)準(zhǔn)命令。當(dāng)然,并不是發(fā)送發(fā)Redis的所有命令都要記錄到AOF日志里面,只有那些會(huì)導(dǎo)致數(shù)據(jù)發(fā)生修改的命令才會(huì)追加到AOF文件。那么每一條修改數(shù)據(jù)的命令都生成一條日志,那么AOF文件是不是會(huì)很大?答案是肯定的,AOF文件會(huì)越來越大,所以Redis又提供了一個(gè)功能,叫做AOF rewrite。其功能就是重新生成一份AOF文件,新的AOF文件中一條記錄的操作只會(huì)有一次,而不像一份老文件那樣,可能記錄了對同一個(gè)值的多次操作。其生成過程和RDB類似,也是fork一個(gè)進(jìn)程,直接遍歷數(shù)據(jù),寫入新的AOF臨時(shí)文件。在寫入新文件的過程中,所有的寫操作日志還是會(huì)寫到原來老的AOF文件中,同時(shí)還會(huì)記錄在內(nèi)存緩沖區(qū)中。當(dāng)重完操作完成后,會(huì)將所有緩沖區(qū)中的日志一次性寫入到臨時(shí)文件中。然后調(diào)用原子性的rename命令用新的AOF文件取代老的AOF文件。
AOF是一個(gè)寫文件操作,其目的是將操作日志寫到磁盤上,所以它也同樣會(huì)遇到我們上面說的寫操作的5個(gè)流程。那么寫AOF的操作安全性又有多高呢。實(shí)際上這是可以設(shè)置的,在Redis中對AOF調(diào)用write(2)寫入后,何時(shí)再調(diào)用fsync將其寫到磁盤上,通過appendfsync選項(xiàng)來控制,下面appendfsync的三個(gè)設(shè)置項(xiàng),安全強(qiáng)度逐漸變強(qiáng)。
1)appendfsync no
當(dāng)設(shè)置appendfsync為no的時(shí)候,Redis不會(huì)主動(dòng)調(diào)用fsync去將AOF日志內(nèi)容同步到磁盤,所以這一切就完全依賴于操作系統(tǒng)的調(diào)試了。對大多數(shù)Linux操作系統(tǒng),是每30秒進(jìn)行一次fsync,將緩沖區(qū)中的數(shù)據(jù)寫到磁盤上。
2)appendfsync everysec
當(dāng)設(shè)置appendfsync為everysec的時(shí)候,Redis會(huì)默認(rèn)每隔一秒進(jìn)行一次fsync調(diào)用,將緩沖區(qū)中的數(shù)據(jù)寫到磁盤。但是當(dāng)這一次的fsync調(diào)用時(shí)長超過1秒時(shí)。Redis會(huì)采取延遲fsync的策略,再等一秒鐘。也就是在兩秒后再進(jìn)行fsync,這一次的fsync就不管會(huì)執(zhí)行多長時(shí)間都會(huì)進(jìn)行。這時(shí)候由于在fsync時(shí)文件描述符會(huì)被阻塞,所以當(dāng)前的寫操作就會(huì)阻塞。所以結(jié)論就是,在絕大多數(shù)情況下,Redis會(huì)每隔一秒進(jìn)行一次fsync。在最壞的情況下,兩秒鐘會(huì)進(jìn)行一次fsync操作。這一操作在大多數(shù)數(shù)據(jù)庫系統(tǒng)中被稱為group commit,就是組合多次寫操作的數(shù)據(jù),一次性將日志寫到磁盤。
3)appednfsync always
當(dāng)設(shè)置appendfsync為always時(shí),每一次寫操作都會(huì)調(diào)用一次fsync,這時(shí)數(shù)據(jù)是最安全的,當(dāng)然,由于每次都會(huì)執(zhí)行fsync,所以其性能也會(huì)受到影響。
3. Memcached和Redis關(guān)鍵技術(shù)對比
作為內(nèi)存數(shù)據(jù)緩沖系統(tǒng),Memcached和Redis均具有很高的性能,但是兩者在關(guān)鍵實(shí)現(xiàn)技術(shù)上具有很大差異,這種差異決定了兩者具有不同的特點(diǎn)和不同的適用條件。下面我們會(huì)對兩者的關(guān)鍵技術(shù)進(jìn)行一些對比,以此來揭示兩者的差異。
Memcached和Redis的內(nèi)存管理機(jī)制對比
對于像Redis和Memcached這種基于內(nèi)存的數(shù)據(jù)庫系統(tǒng)來說,內(nèi)存管理的效率高低是影響系統(tǒng)性能的關(guān)鍵因素。傳統(tǒng)C語言中的malloc/free函數(shù)是最常用的分配和釋放內(nèi)存的方法,但是這種方法存在著很大的缺陷:首先,對于開發(fā)人員來說不匹配的malloc和free容易造成內(nèi)存泄露;其次,頻繁調(diào)用會(huì)造成大量內(nèi)存碎片無法回收重新利用,降低內(nèi)存利用率;最后,作為系統(tǒng)調(diào)用,其系統(tǒng)開銷遠(yuǎn)遠(yuǎn)大于一般函數(shù)調(diào)用。所以,為了提高內(nèi)存的管理效率,高效的內(nèi)存管理方案都不會(huì)直接使用malloc/free調(diào)用。Redis和Memcached均使用了自身設(shè)計(jì)的內(nèi)存管理機(jī)制,但是實(shí)現(xiàn)方法存在很大的差異,下面將會(huì)對兩者的內(nèi)存管理機(jī)制分別進(jìn)行介紹。
Memcached的內(nèi)存管理機(jī)制
Memcached默認(rèn)使用Slab Allocation機(jī)制管理內(nèi)存,其主要思想是按照預(yù)先規(guī)定的大小,將分配的內(nèi)存分割成特定長度的塊以存儲(chǔ)相應(yīng)長度的key-value數(shù)據(jù)記錄,以完全解決內(nèi)存碎片問題。Slab Allocation機(jī)制只為存儲(chǔ)外部數(shù)據(jù)而設(shè)計(jì),也就是說所有的key-value數(shù)據(jù)都存儲(chǔ)在Slab Allocation系統(tǒng)里,而Memcached的其它內(nèi)存請求則通過普通的malloc/free來申請,因?yàn)檫@些請求的數(shù)量和頻率決定了它們不會(huì)對整個(gè)系統(tǒng)的性能造成影響
Slab Allocation的原理相當(dāng)簡單。 如圖3所示,它首先從操作系統(tǒng)申請一大塊內(nèi)存,并將其分割成各種尺寸的塊Chunk,并把尺寸相同的塊分成組Slab Class。其中,Chunk就是用來存儲(chǔ)key-value數(shù)據(jù)的最小單位。每個(gè)Slab Class的大小,可以在Memcached啟動(dòng)的時(shí)候通過制定Growth Factor來控制。假定Figure 1中Growth Factor的取值為1.25,所以如果第一組Chunk的大小為88個(gè)字節(jié),第二組Chunk的大小就為112個(gè)字節(jié),依此類推。
圖3 Memcached內(nèi)存管理架構(gòu)
當(dāng)Memcached接收到客戶端發(fā)送過來的數(shù)據(jù)時(shí)首先會(huì)根據(jù)收到數(shù)據(jù)的大小選擇一個(gè)最合適的Slab Class,然后通過查詢Memcached保存著的該Slab Class內(nèi)空閑Chunk的列表就可以找到一個(gè)可用于存儲(chǔ)數(shù)據(jù)的Chunk。當(dāng)一條數(shù)據(jù)庫過期或者丟棄時(shí),該記錄所占用的Chunk就可以回收,重新添加到空閑列表中。從以上過程我們可以看出Memcached的內(nèi)存管理制效率高,而且不會(huì)造成內(nèi)存碎片,但是它最大的缺點(diǎn)就是會(huì)導(dǎo)致空間浪費(fèi)。因?yàn)槊總€(gè)Chunk都分配了特定長度的內(nèi)存空間,所以變長數(shù)據(jù)無法充分利用這些空間。如圖 4所示,將100個(gè)字節(jié)的數(shù)據(jù)緩存到128個(gè)字節(jié)的Chunk中,剩余的28個(gè)字節(jié)就浪費(fèi)掉了。
圖4 Memcached的存儲(chǔ)空間浪費(fèi)
Redis的內(nèi)存管理機(jī)制
Redis的內(nèi)存管理主要通過源碼中zmalloc.h和zmalloc.c兩個(gè)文件來實(shí)現(xiàn)的。Redis為了方便內(nèi)存的管理,在分配一塊內(nèi)存之后,會(huì)將這塊內(nèi)存的大小存入內(nèi)存塊的頭部。如圖 5所示,real_ptr是redis調(diào)用malloc后返回的指針。redis將內(nèi)存塊的大小size存入頭部,size所占據(jù)的內(nèi)存大小是已知的,為size_t類型的長度,然后返回ret_ptr。當(dāng)需要釋放內(nèi)存的時(shí)候,ret_ptr被傳給內(nèi)存管理程序。通過ret_ptr,程序可以很容易的算出real_ptr的值,然后將real_ptr傳給free釋放內(nèi)存。
圖5 Redis塊分配
Redis通過定義一個(gè)數(shù)組來記錄所有的內(nèi)存分配情況,這個(gè)數(shù)組的長度為ZMALLOC_MAX_ALLOC_STAT。數(shù)組的每一個(gè)元素代表當(dāng)前程序所分配的內(nèi)存塊的個(gè)數(shù),且內(nèi)存塊的大小為該元素的下標(biāo)。在源碼中,這個(gè)數(shù)組為zmalloc_allocations。zmalloc_allocations[16]代表已經(jīng)分配的長度為16bytes的內(nèi)存塊的個(gè)數(shù)。zmalloc.c中有一個(gè)靜態(tài)變量used_memory用來記錄當(dāng)前分配的內(nèi)存總大小。所以,總的來看,Redis采用的是包裝的mallc/free,相較于Memcached的內(nèi)存管理方法來說,要簡單很多。
Redis和Memcached的集群實(shí)現(xiàn)機(jī)制對比
Memcached是全內(nèi)存的數(shù)據(jù)緩沖系統(tǒng),Redis雖然支持?jǐn)?shù)據(jù)的持久化,但是全內(nèi)存畢竟才是其高性能的本質(zhì)。作為基于內(nèi)存的存儲(chǔ)系統(tǒng)來說,機(jī)器物理內(nèi)存的大小就是系統(tǒng)能夠容納的最大數(shù)據(jù)量。如果需要處理的數(shù)據(jù)量超過了單臺(tái)機(jī)器的物理內(nèi)存大小,就需要構(gòu)建分布式集群來擴(kuò)展存儲(chǔ)能力。
Memcached的分布式存儲(chǔ)
Memcached本身并不支持分布式,因此只能在客戶端通過像一致性哈希這樣的分布式算法來實(shí)現(xiàn)Memcached的分布式存儲(chǔ)。圖6 給出了Memcached的分布式存儲(chǔ)實(shí)現(xiàn)架構(gòu)。當(dāng)客戶端向Memcached集群發(fā)送數(shù)據(jù)之前,首先會(huì)通過內(nèi)置的分布式算法計(jì)算出該條數(shù)據(jù)的目標(biāo)節(jié)點(diǎn),然后數(shù)據(jù)會(huì)直接發(fā)送到該節(jié)點(diǎn)上存儲(chǔ)。但客戶端查詢數(shù)據(jù)時(shí),同樣要計(jì)算出查詢數(shù)據(jù)所在的節(jié)點(diǎn),然后直接向該節(jié)點(diǎn)發(fā)送查詢請求以獲取數(shù)據(jù)。
圖6 Memcached客戶端分布式存儲(chǔ)實(shí)現(xiàn)
Redis的分布式存儲(chǔ)
相較于Memcached只能采用客戶端實(shí)現(xiàn)分布式存儲(chǔ),Redis更偏向于在服務(wù)器端構(gòu)建分布式存儲(chǔ)。盡管Redis當(dāng)前已經(jīng)發(fā)布的穩(wěn)定版本還沒有添加分布式存儲(chǔ)功能,但Redis開發(fā)版中已經(jīng)具備了Redis Cluster的基本功能。預(yù)計(jì)在2.6版本之后,Redis就會(huì)發(fā)布完全支持分布式的穩(wěn)定版本,時(shí)間不晚于2012年底。下面我們會(huì)根據(jù)開發(fā)版中的實(shí)現(xiàn),簡單介紹一下Redis Cluster的核心思想。
Redis Cluster是一個(gè)實(shí)現(xiàn)了分布式且允許單點(diǎn)故障的Redis高級(jí)版本,它沒有中心節(jié)點(diǎn),具有線性可伸縮的功能。圖7給出Redis Cluster的分布式存儲(chǔ)架構(gòu),其中節(jié)點(diǎn)與節(jié)點(diǎn)之間通過二進(jìn)制協(xié)議進(jìn)行通信,節(jié)點(diǎn)與客戶端之間通過ascii協(xié)議進(jìn)行通信。在數(shù)據(jù)的放置策略上,Redis Cluster將整個(gè)key的數(shù)值域分成4096個(gè)哈希槽,每個(gè)節(jié)點(diǎn)上可以存儲(chǔ)一個(gè)或多個(gè)哈希槽,也就是說當(dāng)前Redis Cluster支持的最大節(jié)點(diǎn)數(shù)就是4096。Redis Cluster使用的分布式算法也很簡單:crc16( key ) % HASH_SLOTS_NUMBER。
圖7 Redis分布式架構(gòu)
為了保證單點(diǎn)故障下的數(shù)據(jù)可用性,Redis Cluster引入了Master節(jié)點(diǎn)和Slave節(jié)點(diǎn)。如圖4所示,在Redis Cluster中,每個(gè)Master節(jié)點(diǎn)都會(huì)有對應(yīng)的兩個(gè)用于冗余的Slave節(jié)點(diǎn)。這樣在整個(gè)集群中,任意兩個(gè)節(jié)點(diǎn)的宕機(jī)都不會(huì)導(dǎo)致數(shù)據(jù)的不可用。當(dāng)Master節(jié)點(diǎn)退出后,集群會(huì)自動(dòng)選擇一個(gè)Slave節(jié)點(diǎn)成為新的Master節(jié)點(diǎn)。
圖8 Redis Cluster中的Master節(jié)點(diǎn)和Slave節(jié)點(diǎn)
Redis和Memcached整體對比
Redis的作者Salvatore Sanfilippo曾經(jīng)對這兩種基于內(nèi)存的數(shù)據(jù)存儲(chǔ)系統(tǒng)進(jìn)行過比較,總體來看還是比較客觀的,現(xiàn)總結(jié)如下:
1)性能對比:由于Redis只使用單核,而Memcached可以使用多核,所以平均每一個(gè)核上Redis在存儲(chǔ)小數(shù)據(jù)時(shí)比Memcached性能更高。而在100k以上的數(shù)據(jù)中,Memcached性能要高于Redis,雖然Redis最近也在存儲(chǔ)大數(shù)據(jù)的性能上進(jìn)行優(yōu)化,但是比起Memcached,還是稍有遜色。
2)內(nèi)存使用效率對比:使用簡單的key-value存儲(chǔ)的話,Memcached的內(nèi)存利用率更高,而如果Redis采用hash結(jié)構(gòu)來做key-value存儲(chǔ),由于其組合式的壓縮,其內(nèi)存利用率會(huì)高于Memcached。
3)Redis支持服務(wù)器端的數(shù)據(jù)操作:Redis相比Memcached來說,擁有更多的數(shù)據(jù)結(jié)構(gòu)和并支持更豐富的數(shù)據(jù)操作,通常在Memcached里,你需要將數(shù)據(jù)拿到客戶端來進(jìn)行類似的修改再set回去。這大大增加了網(wǎng)絡(luò)IO的次數(shù)和數(shù)據(jù)體積。在Redis中,這些復(fù)雜的操作通常和一般的GET/SET一樣高效。所以,如果需要緩存能夠支持更復(fù)雜的結(jié)構(gòu)和操作,那么Redis會(huì)是不錯(cuò)的選擇。
您可能感興趣的文章:- Redis 對比 Memcached 并在 CentOS 下進(jìn)行安裝配置詳解
- Redis和Memcached的區(qū)別詳解