因?yàn)轫?xiàng)目的原因采用了Redis Cluster,3主3從,每臺(tái)主機(jī)1主1從,集群信息如下:
10.135.255.72:20011> cluster nodes
7b662b36489a6240aa21d1cf7b04b84019254b63 10.135.255.74:20012 slave 85c78164a448fb9965e22447429a56cab226c68f 0 1537239581900 43 connected
61c3e1a640e71f4801d850c901dd33f0b4f6876d 10.135.255.73:20012 slave 8e3491125e105333958dd752ee0d0b0a41ed2d90 0 1537239582300 41 connected
85c78164a448fb9965e22447429a56cab226c68f 10.135.255.73:20011 master - 0 1537239581999 43 connected 5461-10922
8e3491125e105333958dd752ee0d0b0a41ed2d90 10.135.255.72:20011 myself,master - 0 0 41 connected 0-5460
92eadfb6acbd0db74a8b8860286a7f63abce140e 10.135.255.74:20011 master - 0 1537239581799 44 connected 10923-16383
7084c1d7950b83abc1e4419500e1c24a9fa108e7 10.135.255.72:20012 slave 92eadfb6acbd0db74a8b8860286a7f63abce140e 0 1537239581499 44 connected
Redis Cluster經(jīng)過(guò)運(yùn)行一段時(shí)間后,會(huì)經(jīng)常發(fā)生主從關(guān)系的自動(dòng)切換,比如:10.135.255.74:20012變成master,10.135.255.73:20011變成slave,這樣就會(huì)導(dǎo)致10.135.255.74:20011和10.135.255.74:20012變成雙master,這樣假如10.135.255.74這臺(tái)主機(jī)發(fā)生宕機(jī),就會(huì)導(dǎo)致2個(gè)master不可用,導(dǎo)致cluster down(ps:redis cluster中一半以上的master故障會(huì)導(dǎo)致 cluster down)。此問(wèn)題困擾項(xiàng)目組很久,一直未找到根本原因。
后來(lái)經(jīng)過(guò)多次查閱資料,應(yīng)該是redis.conf里的集群節(jié)點(diǎn)的超時(shí)時(shí)限參數(shù)cluster-node-timeout配置的是2000(2秒),這里簡(jiǎn)單講解下該參數(shù)的作用:
一、節(jié)點(diǎn)失效檢測(cè)
1.集群中當(dāng)一個(gè)節(jié)點(diǎn)向另一個(gè)節(jié)點(diǎn)發(fā)送PING命令,但是目標(biāo)節(jié)點(diǎn)未在給定的時(shí)限內(nèi)返回PING命令的回復(fù)時(shí),那么發(fā)送命令的節(jié)點(diǎn)會(huì)將目標(biāo)節(jié)點(diǎn)標(biāo)記為PFAIL(possible failuer,可能已失效);
等待節(jié)點(diǎn)回復(fù)的時(shí)限稱(chēng)為節(jié)點(diǎn)超時(shí)時(shí)限(node timeout),是一個(gè)節(jié)點(diǎn)選項(xiàng)(node-wise setting);
二、集群狀態(tài)檢測(cè)
每當(dāng)集群發(fā)生配置變化時(shí)(可能是哈希槽更新,也可能是某個(gè)節(jié)點(diǎn)進(jìn)入失效狀態(tài)),集群中的每個(gè)節(jié)點(diǎn)都會(huì)對(duì)它所知道的節(jié)點(diǎn)進(jìn)行掃描(scan);
一旦配置完畢,集群就會(huì)進(jìn)入兩種狀態(tài)中的一種:
FAIL:集群不能正常工作,當(dāng)集群中有某個(gè)節(jié)點(diǎn)進(jìn)入失效狀態(tài)時(shí),集群不能處理任何命令請(qǐng)求,對(duì)于每個(gè)命令請(qǐng)求,集群節(jié)點(diǎn)都返回錯(cuò)誤回復(fù);
OK:集群可以正常工作,負(fù)責(zé)處理全部16384個(gè)槽節(jié)點(diǎn)中,沒(méi)有一個(gè)被標(biāo)記為FAIL狀態(tài);
三、從節(jié)點(diǎn)選舉
一旦某個(gè)主節(jié)點(diǎn)進(jìn)入了FAIL狀態(tài),如果這個(gè)主節(jié)點(diǎn)有一個(gè)或者多個(gè)從節(jié)點(diǎn)存在,那么其中一個(gè)從節(jié)點(diǎn)會(huì)被升級(jí)為主節(jié)點(diǎn),而其它從節(jié)點(diǎn)會(huì)開(kāi)始對(duì)這個(gè)新主節(jié)點(diǎn)進(jìn)行復(fù)制;
在實(shí)際生產(chǎn)使用過(guò)程中,由于網(wǎng)絡(luò)順時(shí)延遲或者Cluster某些節(jié)點(diǎn)正在進(jìn)行持久化,AOF重寫(xiě)、Master-slave同步數(shù)據(jù)這些耗時(shí)的操作,可能就會(huì)產(chǎn)生節(jié)點(diǎn)檢測(cè)超時(shí)(>2000ms)從而失效,為了避免節(jié)點(diǎn)檢測(cè)過(guò)于靈敏,經(jīng)過(guò)多次調(diào)整實(shí)踐,在該項(xiàng)目的實(shí)際生產(chǎn)環(huán)境中,將cluster-node-timeout調(diào)整為12000ms后,比較穩(wěn)定,既不輕易發(fā)生主從自動(dòng)切換,也在真正master節(jié)點(diǎn)主機(jī)宕機(jī)后,slave能迅速選舉為主,保證redis cluster可用。
補(bǔ)充:記一次Redis主從切換故障解決
問(wèn)題描述:
在虛擬機(jī)機(jī)上配置了一主二從三哨兵,主機(jī)宕機(jī)后其中一臺(tái)從機(jī)自動(dòng)切換為主機(jī)成功。重啟之前的主機(jī)卻連不上新的主機(jī)。
解決方法:
經(jīng)過(guò)檢查發(fā)現(xiàn),舊的主機(jī)未配置連接新的從機(jī)的密碼
接下里配置好連接密碼,再重啟一下redis服務(wù)
重啟后主機(jī)連接狀態(tài)顯示正常,問(wèn)題解決
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
您可能感興趣的文章:- Redis Cluster集群數(shù)據(jù)分片機(jī)制原理
- 使用Ruby腳本部署Redis Cluster集群步驟講解
- php成功操作redis cluster集群的實(shí)例教程
- Redis cluster集群的介紹
- Redis Cluster 集群搭建你會(huì)嗎