這回說說怎樣通過 cgroups 來管理 cpu 資源。先說控制進(jìn)程的 cpu 使用。在一個機器上運行多個可能消耗大量資源的程序時,我們不希望出現(xiàn)某個程序占據(jù)了所有的資源,導(dǎo)致其他程序無法正常運行,或者造成系統(tǒng)假死無法維護(hù)。這時候用 cgroups 就可以很好地控制進(jìn)程的資源占用。這里單說 cpu 資源。
cgroups 里,可以用 cpu.cfs_period_us 和 cpu.cfs_quota_us 來限制該組中的所有進(jìn)程在單位時間里可以使用的 cpu 時間。這里的 cfs 是完全公平調(diào)度器的縮寫。cpu.cfs_period_us 就是時間周期,默認(rèn)為 100000,即百毫秒。cpu.cfs_quota_us 就是在這期間內(nèi)可使用的 cpu 時間,默認(rèn) -1,即無限制。
跑一個耗 cpu 的程序
# echo 'while True: pass'|python
[1] 1532
top 一下可以看到,這進(jìn)程占了 100% 的 cpu
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1532 root 20 0 112m 3684 1708 R 99.6 0.7 0:30.42 python
...
然后就來對這個進(jìn)程做一下限制。先把 /foo 這個控制組的限制修改一下,然后把進(jìn)程加入進(jìn)去。
echo 50000 >/sys/fs/cgroup/cpu/foo/cpu.cfs_quota_us
echo 1532 >/sys/fs/group/cpu/foo/tasks
可見,修改設(shè)置只需要寫入相應(yīng)文件,將進(jìn)程加入 cgroup 也只需將 pid 寫入到其中的 tasks 文件即可。這里將 cpu.cfs_quota_us 設(shè)為 50000,相對于 cpu.cfs_period_us 的 100000 即 50%。再 top 一下看看效果。
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1532 root 20 0 112m 3684 1708 R 50.2 0.7 5:00.31 python
...
可以看到,進(jìn)程的 cpu 占用已經(jīng)被成功地限制到了 50% 。這里,測試的虛擬機只有一個核心。在多核情況下,看到的值會不一樣。另外,cfs_quota_us 也是可以大于 cfs_period_us 的,這主要是對于多核情況。有 n 個核時,一個控制組中的進(jìn)程自然最多就能用到 n 倍的 cpu 時間。
這兩個值在 cgroups 層次中是有限制的,下層的資源不能超過上層。具體的說,就是下層的 cpu.cfs_period_us 值不能小于上層的值,cpu.cfs_quota_us 值不能大于上層的值。
另外的一組 cpu.rt_period_us、cpu.rt_runtime_us 對應(yīng)的是實時進(jìn)程的限制,平時可能不會有機會用到。
在 cpu 子系統(tǒng)中,cpu.stat 就是用前面那種方法做的資源限制的統(tǒng)計了。nr_periods、nr_throttled 就是總共經(jīng)過的周期,和其中受限制的周期。throttled_time 就是總共被控制組掐掉的 cpu 使用時間。
還有個 cpu.shares, 它也是用來限制 cpu 使用的。但是與 cpu.cfs_quota_us、cpu.cfs_period_us 有挺大區(qū)別。cpu.shares 不是限制進(jìn)程能使用的絕對的 cpu 時間,而是控制各個組之間的配額。比如
/cpu/cpu.shares : 1024
/cpu/foo/cpu.shares : 2048
那么當(dāng)兩個組中的進(jìn)程都滿負(fù)荷運行時,/foo 中的進(jìn)程所能占用的 cpu 就是 / 中的進(jìn)程的兩倍。如果再建一個 /foo/bar 的 cpu.shares 也是 1024,且也有滿負(fù)荷運行的進(jìn)程,那 /、/foo、/foo/bar 的 cpu 占用比就是 1:2:1 。前面說的是各自都跑滿的情況。如果其他控制組中的進(jìn)程閑著,那某一個組的進(jìn)程完全可以用滿全部 cpu??梢娡ǔG闆r下,這種方式在保證公平的情況下能更充分利用資源。
此外,還可以限定進(jìn)程可以使用哪些 cpu 核心。cpuset 子系統(tǒng)就是處理進(jìn)程可以使用的 cpu 核心和內(nèi)存節(jié)點,以及其他一些相關(guān)配置。這部分的很多配置都和 NUMA 有關(guān)。其中 cpuset.cpus、cpuset.mems 就是用來限制進(jìn)程可以使用的 cpu 核心和內(nèi)存節(jié)點的。這兩個參數(shù)中 cpu 核心、內(nèi)存節(jié)點都用 id 表示,之間用 “,” 分隔。比如 0,1,2 。也可以用 “-” 表示范圍,如 0-3 。兩者可以結(jié)合起來用。如“0-2,6,7”。在添加進(jìn)程前,cpuset.cpus、cpuset.mems 必須同時設(shè)置,而且必須是兼容的,否則會出錯。例如
# echo 0 >/sys/fs/cgroup/cpuset/foo/cpuset.cpus
# echo 0 >/sys/fs/cgroup/cpuset/foo/cpuset.mems
這樣, /foo 中的進(jìn)程只能使用 cpu0 和內(nèi)存節(jié)點0。用
# cat /proc/pid>/status|grep '_allowed_list'
可以驗證效果。
cgroups 除了用來限制資源使用外,還有資源統(tǒng)計的功能。做云計算的計費就可以用到它。有一個 cpuacct 子系統(tǒng)專門用來做 cpu 資源統(tǒng)計。cpuacct.stat 統(tǒng)計了該控制組中進(jìn)程用戶態(tài)和內(nèi)核態(tài)的 cpu 使用量,單位是 USER_HZ,也就是 jiffies、cpu 滴答數(shù)。每秒的滴答數(shù)可以用 getconf CLK_TCK 來獲取,通常是 100。將看到的值除以這個值就可以換算成秒。
cpuacct.usage 和 cpuacct.usage_percpu 是該控制組中進(jìn)程消耗的 cpu 時間,單位是納秒。后者是分 cpu 統(tǒng)計的。
P.S. 2014-4-22
發(fā)現(xiàn)在 SLES 11 sp2、sp3 ,對應(yīng)內(nèi)核版本 3.0.13、 3.0.76 中,對 cpu 子系統(tǒng),將 pid 寫入 cgroup.procs 不會實際生效,要寫入 tasks 才行。在其他環(huán)境中,更高版本或更低版本內(nèi)核上均未發(fā)現(xiàn)。