linux 的 cgroups 還可以限制和監(jiān)控進(jìn)程的磁盤 io。這個(gè)功能通過 blkio 子系統(tǒng)實(shí)現(xiàn)。
blkio 子系統(tǒng)里東西很多。不過大部分都是只讀的狀態(tài)報(bào)告,可寫的參數(shù)就只有下面這幾個(gè):
blkio.throttle.read_bps_device
blkio.throttle.read_iops_device
blkio.throttle.write_bps_device
blkio.throttle.write_iops_device
blkio.weight
blkio.weight_device
這些都是用來控制進(jìn)程的磁盤 io 的。很明顯地分成兩類,其中帶“throttle”的,顧名思義就是節(jié)流閥,將流量限制在某個(gè)值下。而“weight”就是分配 io 的權(quán)重。
“throttle”的那四個(gè)參數(shù)看名字就知道是做什么用的。拿 blkio.throttle.read_bps_device 來限制每秒能讀取的字節(jié)數(shù)。先跑點(diǎn) io 出來
dd if=/dev/sda of=/dev/null
[1] 2750
用 iotop 看看目前的 io
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
2750 be/4 root 66.76 M/s 0.00 B/s 0.00 % 68.53 % dd if=/dev/sda of=/dev/null
...
然后修改一下資源限制,把進(jìn)程加入控制組
echo '8:0 1048576' >/sys/fs/cgroup/blkio/foo/blkio.throttle.read_bps_device
echo 2750 >/sys/fs/cgroup/blkio/foo/tasks
這里的 8:0 就是對應(yīng)塊設(shè)備的主設(shè)備號(hào)和副設(shè)備號(hào)。可以通過 ls -l 設(shè)備文件名查看。如
# ls -l /dev/sda
brw-rw----. 1 root disk 8, 0 Oct 24 11:27 /dev/sda
這里的 8, 0 就是對應(yīng)的設(shè)備號(hào)。所以,cgroups 可以對不同的設(shè)備做不同的限制。然后來看看效果
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
2750 be/4 root 989.17 K/s 0.00 B/s 0.00 % 96.22 % dd if=/dev/sda of=/dev/null
...
可見,進(jìn)程的每秒讀取立馬就降到了 1MB 左右。要解除限制,寫入如 “8:0 0” 到文件中即可
不過需要注意的是,這種方式對小于采樣間隔里產(chǎn)生的大量 io 是沒用的。比如,就算在 1s 內(nèi)產(chǎn)生一個(gè)每秒寫入 100M 的峰值,也不會(huì)因此被限制掉。
再看看 blkio.weight 。blkio 的 throttle 和 weight 方式和 cpu 子系統(tǒng)的 quota 和 shares 有點(diǎn)像,都是一種是絕對限制,另一種是相對限制,并且在不繁忙的時(shí)候可以充分利用資源,權(quán)重值的范圍在 10 – 1000 之間。
測試權(quán)重方式要麻煩一點(diǎn)。因?yàn)椴皇墙^對限制,所以會(huì)受到文件系統(tǒng)緩存的影響。如在虛擬機(jī)中測試,要關(guān)閉虛機(jī)如我用的 VirtualBox 在宿主機(jī)上的緩存。如要測試讀 io 的效果,先生成兩個(gè)幾個(gè) G 的大文件 /tmp/file_1,/tmp/file_2 ,可以用 dd 搞。然后設(shè)置兩個(gè)權(quán)重
# echo 500 >/sys/fs/cgroup/blkio/foo/blkio.weight
# echo 100 >/sys/fs/cgroup/blkio/bar/blkio.weight
測試前清空文件系統(tǒng)緩存,以免干擾測試結(jié)果
sync
echo 3 >/proc/sys/vm/drop_caches
在這兩個(gè)控制組中用 dd 產(chǎn)生 io 測試效果。
# cgexec -g "blkio:foo" dd if=/tmp/file_1 of=/dev/null
[1] 1838
# cgexec -g "blkio:bar" dd if=/tmp/file_2 of=/dev/null
[2] 1839
還是用 iotop 看看效果
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
1839 be/4 root 48.14 M/s 0.00 B/s 0.00 % 99.21 % dd if=/tmp/file_2 of=/dev/null
1838 be/4 root 223.59 M/s 0.00 B/s 0.00 % 16.44 % dd if=/tmp/file_1 of=/dev/null
兩個(gè)進(jìn)程每秒讀的字節(jié)數(shù)雖然會(huì)不斷變動(dòng),但是大致趨勢還是維持在 1:5 左右,和設(shè)定的 weight 比例一致。blkio.weight_device 是分設(shè)備的。寫入時(shí),前面再加上設(shè)備號(hào)即可。
blkio 子系統(tǒng)里還有很多統(tǒng)計(jì)項(xiàng)
blkio.time
各設(shè)備的 io 訪問時(shí)間,單位毫秒
blkio.sectors
換入者或出各設(shè)備的扇區(qū)數(shù)
blkio.io_serviced
各設(shè)備中執(zhí)行的各類型 io 操作數(shù),分read、write、sync、async 和 total
blkio.io_service_bytes
各類型 io 換入者或出各設(shè)備的字節(jié)數(shù)
blkio.io_service_time
各設(shè)備中執(zhí)行的各類型 io 時(shí)間,單位微秒
blkio.io_wait_time
各設(shè)備中各類型 io 在隊(duì)列中的 等待時(shí)間
blkio.io_merged
各設(shè)備中各類型 io 請求合并的次數(shù)
blkio.io_queued
各設(shè)備中各類型 io 請求當(dāng)前在隊(duì)列中的數(shù)量
通過這些統(tǒng)計(jì)項(xiàng)更好地統(tǒng)計(jì)、監(jiān)控進(jìn)程的 io 情況
用
echo 1 >blkio.reset_stats
可以將所有統(tǒng)計(jì)項(xiàng)清零。