主頁 > 知識庫 > 使用sysdig監(jiān)控和排除Linux系統(tǒng)服務(wù)器故障的方法

使用sysdig監(jiān)控和排除Linux系統(tǒng)服務(wù)器故障的方法

熱門標簽:焦作人工智能電話機器人軟件 鄭州營銷外呼系統(tǒng)運營商 貴陽語音電銷機器人招商 2020電銷機器人排行 淘寶系統(tǒng)退貨外呼項目考試答案 廳外呼梯系統(tǒng)布線 百度地圖標注陰影動態(tài) 北京市地圖標注 鹽城客服外呼系統(tǒng)軟件

當你需要追蹤某個進程產(chǎn)生和接收的系統(tǒng)調(diào)用時,首先浮現(xiàn)在你腦海中的是什么?你可能會想到strace,那么你是對的。你會使用什么樣的命令行工具來監(jiān)控原始網(wǎng)絡(luò)通信呢?如果你想到了tcpdump,你又作出了一個極佳的選擇。而如果你碰到必須追蹤打開的文件(在Unix意義上:一切皆文件)的需求,可能你會使用lsof。

strace、tcpdump以及l(fā)sof,確實是些偉大的工具,它們應(yīng)該成為每個系統(tǒng)管理員工具集之中的一部分,而這也正是你為什么應(yīng)該愛上sysdig的原因。它是一個強大的開源工具,用于系統(tǒng)級別的勘察和排障,它的創(chuàng)建者在介紹它時稱之為“strace+tcpdump+lsof+上面點綴著lua櫻桃的絕妙醬汁”。拋開幽默不說,sysdig的最棒特性之一在于,它不僅能分析Linux系統(tǒng)的“現(xiàn)場”狀態(tài),也能將該狀態(tài)保存為轉(zhuǎn)儲文件以供離線檢查。更重要的是,你可以自定義sysdig的行為,或者甚至通過內(nèi)建的(你也可以自己編寫)名為鑿子(chisel)的小腳本增強其功能。單獨的鑿子可以以腳本指定的各種風(fēng)格分析sysdig捕獲的事件流。
在本教程中,我們將探索sysdig的安裝及其基本用法,在Linux上實施系統(tǒng)監(jiān)控和排障。
安裝Sysdig

對于本教程,由于為了簡便、縮短安裝流程以及版本的不可知,我們將選擇使用官方網(wǎng)站提供的自動化安裝過程。在自動化過程中,安裝腳本會自動檢測操作系統(tǒng)并安裝必需的依賴包。

以root身份運行以下命令來從官方apt/yum倉庫安裝sysdig:

   

復(fù)制代碼
代碼如下:
# curl -s https://s3.amazonaws.com/download.draios.com/stable/install-sysdig | bash

  

    安裝完成后,我們可以通過以下方法調(diào)用sysdig來感受一下它:

   

復(fù)制代碼
代碼如下:
# sysdig

我們的屏幕將馬上被系統(tǒng)上發(fā)生的所有事件填滿,對于這些信息,不便于我們做更多操作。要進一步處理,我們可以運行:

   

復(fù)制代碼
代碼如下:
# sysdig -cl | less

來查看可用的鑿子列表。

默認有以下類目可用,各個類目中分布有多個內(nèi)建的鑿子。

  •     CPU Usage:CPU使用量
        Errors:錯誤
        I/O
        Logs:日志
        Misc:混雜
        Net:網(wǎng)絡(luò)
        Performance:性能
        Security:安全
        System State:系統(tǒng)狀態(tài)

要顯示指定鑿子上的信息(包括詳細的命令行用法),運行以下命令:

   

復(fù)制代碼
代碼如下:
# sysdig -cl [鑿子名稱]

例如,我們可以檢查“網(wǎng)絡(luò)”類目下關(guān)于spy_port鑿子的信息:

   

復(fù)制代碼
代碼如下:
# sysdig -i spy_port

    鑿子可以通過過濾器(可同時應(yīng)用于實時數(shù)據(jù)和記錄文件)組合,以獲取更多有用的輸出。

過濾器遵從“類.字段”結(jié)構(gòu)。例如:

  •     fd.cip:客戶端IP地址。
        evt.dir:事件方向,可以是‘>’用于進入事件,或‘’用于退出事件。

完整的過濾器列表可以通過以下命令顯示:

   

復(fù)制代碼
代碼如下:
# sysdig -l

在本教程剩余部分,我將演示幾個sysdig的使用案例。
Sysdig實例: 服務(wù)器性能排障

假定你的服務(wù)器發(fā)生了性能問題(如,沒有回應(yīng),或者重大的回應(yīng)延遲)。你可以使用瓶頸鑿子來顯示當前10個最慢系統(tǒng)調(diào)用的列表。

使用以下命令在存活服務(wù)器上進行實時檢查。“-c”標識,后跟鑿子名稱告訴sysdig運行指定的鑿子。

   

復(fù)制代碼
代碼如下:
# sysdig -c bottlenecks

或者,你可以離線對服務(wù)器實施性能分析。在此種情況下,你可以保存完整的sysdig記錄到文件,然后像下面這樣針對記錄運行瓶頸鑿子。

首先,保存sysdige記錄(使用Ctrl+c來停止收集):

   

復(fù)制代碼
代碼如下:
# sysdig -w trace.scap

收集完記錄后,你可以運行以下命令來檢查捕獲間隔中最慢的系統(tǒng)調(diào)用:

   

復(fù)制代碼
代碼如下:
# sysdig -r trace.scap -c bottlenecks

你需要關(guān)注欄#2,#3和#4,這些分別表示執(zhí)行時間、進程名和PID。
Sysdig實例: 監(jiān)控交互用戶活動

假定你作為系統(tǒng)管理員想要監(jiān)控系統(tǒng)中交互的用戶活動(如,用戶在命令行輸入了什么命令,以及用戶去了什么目錄),這時spy_user鑿子就派上用場了。

讓我們首先通過一些額外選項來收集一個sysdig記錄。

   

復(fù)制代碼
代碼如下:
# sysdig -s 4096 -z -w /mnt/sysdig/$(hostname).scap.gz

  •     “-s 4096”告訴sysdig每個事件捕獲4096字節(jié)。
        “-z” (與“-w”一起使用)為記錄文件啟用壓縮。
        “-w ”保存sysdig記錄到指定的文件。

在上面的例子中,我們自定義了基于每個主機的壓縮的記錄文件的名稱。記住,你可以在任何時候按下Ctrl+c來打斷sysdig的執(zhí)行。

在我們收集到了合理數(shù)量的數(shù)據(jù)后,我們可以通過運行以下命令來查看每個用戶的交互活動:

   

復(fù)制代碼
代碼如下:
# sysdig -r /mnt/sysdig/debian.scap.gz -c spy_users

    上面輸出的第一欄表示與指定用戶的活動相關(guān)進程的PID。

如果你想要定位一個指定的用戶,以及只監(jiān)控該用戶的活動又怎么樣呢?你可以通過用戶名對spy_users鑿子的結(jié)果進行過濾:

   

復(fù)制代碼
代碼如下:
# sysdig -r /mnt/sysdig/debian.scap.gz -c spy_users "user.name=xmodulo"

    Sysdig實例: 監(jiān)控文件I/O

我們可以使用“-p”標識來自定義sysdig記錄的輸出格式,并指定雙引號括起來的想要的字段(如用戶名、進程名,以及文件或套接口名稱)。在本例中,我們將創(chuàng)建一個記錄文件,該文件將只包含在家目錄中的寫入事件(我們今后可以使用“sysdig -r writetrace.scap.gz”來檢測該文件)。
   

復(fù)制代碼
代碼如下:
# sysdig -p "%user.name %proc.name %fd.name" "evt.type=write and fd.name contains /home/" -z -w writetrace.scap.gz

  

    Sysdig實例: 監(jiān)控網(wǎng)絡(luò)I/O

作為服務(wù)器排障的一部分,你可能想要監(jiān)聽網(wǎng)絡(luò)通信,此工作通常由tcpdump做。對于sysdig,可以很容易進行通信嗅探,其風(fēng)格更為對用戶友好。

例如,你可以檢查由特定IP地址,特定進程(如apache2)提供的數(shù)據(jù)(ASCII編碼格式):

   

復(fù)制代碼
代碼如下:
# sysdig -s 4096 -A -c echo_fds fd.cip=192.168.0.100 -r /mnt/sysdig/debian.scap.gz proc.name=apache2

如果你想要監(jiān)控原生數(shù)據(jù)傳輸(二進制格式),請把“-A”替換為“-X”:

   

復(fù)制代碼
代碼如下:
# sysdig -s 4096 -X -c echo_fds fd.cip=192.168.0.100 -r /mnt/sysdig/debian.scap.gz proc.name=apache2


標簽:大理 周口 六安 大慶 大興安嶺 樂山 青島 遼寧

巨人網(wǎng)絡(luò)通訊聲明:本文標題《使用sysdig監(jiān)控和排除Linux系統(tǒng)服務(wù)器故障的方法》,本文關(guān)鍵詞  使用,sysdig,監(jiān)控,和,排除,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《使用sysdig監(jiān)控和排除Linux系統(tǒng)服務(wù)器故障的方法》相關(guān)的同類信息!
  • 本頁收集關(guān)于使用sysdig監(jiān)控和排除Linux系統(tǒng)服務(wù)器故障的方法的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章