骨干網(wǎng)(Internet Backbone Network)是連接國(guó)與國(guó)、城市與城市之間的高速互聯(lián)網(wǎng)絡(luò)。如下圖所示,它通過海纜和路纜,將分布在世界各地的數(shù)據(jù)中心連接起來,是互聯(lián)網(wǎng)辦事提供商和云計(jì)算辦事提供商的重要基礎(chǔ)設(shè)施,肩負(fù)著滿足全球范圍內(nèi)網(wǎng)絡(luò)數(shù)據(jù)通信需求的重任。
全球骨干網(wǎng)示意圖
骨干網(wǎng)的角色如此重要,以至于與此有關(guān)的話題,常常會(huì)引起業(yè)界的關(guān)注和討論。作為云計(jì)算的基礎(chǔ),國(guó)內(nèi)的云計(jì)算辦事提供商是如何運(yùn)維本身的骨干網(wǎng)的?又是如何實(shí)現(xiàn)自動(dòng)化運(yùn)維的?有哪些值得分享、思考的經(jīng)驗(yàn)和做法?作為一名從業(yè) 10 年的網(wǎng)絡(luò)架構(gòu)師,我向大家介紹一下金山云骨干網(wǎng)的現(xiàn)況,希望對(duì)大家有所幫手。
如何快速發(fā)現(xiàn)骨干網(wǎng)級(jí)別故障?
首先簡(jiǎn)要介紹一下建設(shè)進(jìn)展。金山云目前在北京和上海兩地之間租用專線搭建起了骨干網(wǎng)絡(luò),根據(jù)計(jì)劃,本年金山云會(huì)在廣州安排節(jié)點(diǎn),將進(jìn)一步擴(kuò)大環(huán)網(wǎng)規(guī)模,搭建北上廣骨干環(huán)網(wǎng),大幅提升金山云公有云辦事的網(wǎng)絡(luò)質(zhì)量SLA。
當(dāng)然,這并不是說建設(shè)骨干環(huán)網(wǎng)后就不會(huì)出故障了,,對(duì)于互聯(lián)網(wǎng)公司和云計(jì)算辦事商來說,運(yùn)營(yíng)商的骨干網(wǎng)絡(luò)故障是很讓人頭痛的,因?yàn)樵谕ǔG闆r下,這種故障會(huì)影響到多個(gè)省份用戶網(wǎng)絡(luò)的拜候質(zhì)量。
例如, 2016 年 11 月 19 日晚 8 點(diǎn),包孕華南、西南、華中等在內(nèi)的國(guó)內(nèi)多個(gè)地區(qū),超過 10 個(gè)省份的用戶,在拜候華北地區(qū)的辦事節(jié)點(diǎn)時(shí),均出現(xiàn)了問題。測(cè)試結(jié)果顯示,ICMP丟包率高達(dá)30%,延遲增大了約100ms,這種級(jí)另外丟包率和延遲情況,如果不及時(shí)處理,將導(dǎo)致用戶的業(yè)務(wù)嚴(yán)重受損。
那么,對(duì)于這種骨干網(wǎng)級(jí)另外故障,云辦事商能否做到快速發(fā)現(xiàn)定位呢?當(dāng)然是可以的。
金山云的做法是,通過自研開源監(jiān)控的方式,研發(fā)出辦事于金山云整個(gè)骨干網(wǎng)的網(wǎng)絡(luò)質(zhì)量監(jiān)控系統(tǒng)(Netbench)。
金山云網(wǎng)絡(luò)質(zhì)量監(jiān)控系統(tǒng)監(jiān)控圖
如上圖所示,金山云的這套系統(tǒng)支持多地區(qū)、多ISP監(jiān)控,可在運(yùn)營(yíng)商發(fā)生骨干網(wǎng)故障時(shí),快速發(fā)現(xiàn)并準(zhǔn)確定位故障,同時(shí)采用電子地圖這種直不雅觀形式,顯示出各省份各地級(jí)市的網(wǎng)絡(luò)質(zhì)量(延遲、丟包等數(shù)據(jù)),如果某地出現(xiàn)問題,地圖上相應(yīng)位置的顏色就會(huì)變得差別。
金山云網(wǎng)絡(luò)質(zhì)量監(jiān)控系統(tǒng)架構(gòu)圖
金山云這套網(wǎng)絡(luò)質(zhì)量監(jiān)控系統(tǒng)的主要特點(diǎn),分為定位策略、主要功能、應(yīng)用場(chǎng)景三部分:
一、定位策略
抓取拜候客戶辦事的用戶IP作為監(jiān)控目的IP;
多對(duì)多的監(jiān)控模式,多個(gè)源IP監(jiān)控全國(guó)各個(gè)省市的用戶IP(保證數(shù)據(jù)的準(zhǔn)確性制止路由ecmp不均勻的問題);
通過對(duì)抓取到的IP進(jìn)行篩選,排除掉一些不準(zhǔn)確的IP,最終篩選出每省份數(shù)百個(gè)有效IP進(jìn)行監(jiān)控;
商用的IP地址庫(kù)與BGP IP結(jié)合對(duì)抓取到的IP進(jìn)行區(qū)分(ISP、省、市等);
Master-Slave的安排模式,監(jiān)控周期可精確到分鐘級(jí)(每 1 分鐘)。
二、主要功能
提供短信、微信、郵件告警;
提供故障時(shí)的MTR數(shù)據(jù)(平均每省份多個(gè)MTR),可幫手判斷l(xiāng)oss節(jié)點(diǎn);
提供柱狀圖、歷史數(shù)據(jù)展示等功能,可追溯故障,查看故障時(shí)的丟包以及延遲情況;
可針對(duì)重要的IP進(jìn)行指定監(jiān)控。
三、應(yīng)用場(chǎng)景
可覆蓋CDN、靜態(tài)、BGP等多網(wǎng)絡(luò)類型;
目前可針對(duì)EIP(計(jì)算)、KS3(存儲(chǔ))、KLS(視頻)等業(yè)務(wù)類型進(jìn)行監(jiān)控。
骨干網(wǎng)調(diào)度架構(gòu)圖
如何快速解決骨干網(wǎng)級(jí)別故障?
對(duì)于骨干網(wǎng)級(jí)另外故障,除了需要快速發(fā)現(xiàn),更需要快速解決。
有些互聯(lián)網(wǎng)和云計(jì)算辦事提供商,會(huì)通過多線BGP切換故障ISP流量至其他的ISP的方式繞開故障點(diǎn),由于我國(guó)南北互通問題,跨網(wǎng)拜候的質(zhì)量很差,丟包和延遲都無法保證,并且在跨網(wǎng)切換時(shí),會(huì)有較長(zhǎng)時(shí)間的路由收斂,導(dǎo)致客戶長(zhǎng)連接業(yè)務(wù)中斷。
金山云制止了這些問題。因?yàn)榻鹕皆频淖越ü歉删W(wǎng)絡(luò)擁有支持跨區(qū)域調(diào)度能力,當(dāng)出現(xiàn)故障時(shí),能夠通過骨干網(wǎng)跨地區(qū)調(diào)度故障運(yùn)營(yíng)商流量,這種調(diào)度只是在同ISP差別地區(qū)之間的調(diào)度,只增加地區(qū)間的延遲,對(duì)整體丟包并無影響,這樣一來,整體辦事質(zhì)量就得到了保障,同ISP內(nèi)的路由切換收斂時(shí)間,可保證用戶無感知,在近幾次運(yùn)營(yíng)商南北骨干網(wǎng)故障中,金山云均做到了故障的快速調(diào)度恢復(fù),客戶也不必再因?yàn)檫\(yùn)營(yíng)商骨干網(wǎng)的故障而頭疼了。
骨干網(wǎng)絡(luò)調(diào)度前后對(duì)比圖