操作符 | 用途 |
---|---|
.(句號) | 匹配任意單個字符。 |
^(脫字號) | 匹配出現(xiàn)在行首或字符串開始位置的空字符串。 |
$(美元符號) | 匹配出現(xiàn)在行末的空字符串。 |
A | 匹配大寫字母 A。 |
a | 匹配小寫字母 a。 |
/d | 匹配任意一位數(shù)字。 |
/D | 匹配任意單個非數(shù)字字符。 |
/w | 匹配任意單個字母數(shù)字字符,同義詞是 [:alnum:]。 |
[A-E] | 匹配任意大寫的 A、B、C、D 或 E。 |
[^A-E] | 匹配除 A、B、C、D 和 E 之外的任意字符。 |
X? | 匹配出現(xiàn)零次或一次的大寫字母 X。 |
X* | 匹配零個或任意個大寫 X。 |
X+ | 匹配一個或多個字母 X。 |
X{n} | 精確匹配 n 個字母 X。 |
X{n,m} | 匹配最少 n 個并且不超過 m 個字母 X。如果省略 m,表達式將嘗試匹配最少 n 個 X。 |
(abc|def)+ | 匹配一連串的(最少一個) abc 或 def;abc 和 def 將匹配。 |
以下是一些使用 grep 作為搜索工具的正則表達式示例。許多其他 UNIX 工具,包括交互式編輯器 vi 和 Emacs、流編輯器 sed 和 awk,以及所有現(xiàn)代編程語言都支持正則表達式。在您學會正則表達式的語法(也許相當晦澀)之后,就可以將您的專業(yè)知識靈活運用到不同的工具、編程語言和操作系統(tǒng)。
查找以“Bat”開頭的名稱
要查找以“Bat”開頭的名稱,請使用:
grep -E '^Bat'
可以使用 -E 選項來指定正則表達式。^(脫字號)字符匹配行首或字符串的開頭,這是一個出現(xiàn)在每行或每個字符串開頭字符之前的假想字符。字母 B、a 和 t 只具有字面含義并且僅匹配那些特定的字符。因此,命令 grep -E '^Bat'
將生成:
Batman
Batgirl
由于許多 regex 操作符也為 Shell 所使用(其中一些具有不同的用途,另外一些則有類似的用途),因此一個好的習慣是使用單引號將命令行中的每個 regex 括起來,以保護 regex 操作符免遭 Shell 的誤解。例如,*(星號)和 $(美元符號)都是 regex 操作符,并且對于您的 Shell 具有特殊的含義。
查找以“man”結尾的名稱
要查找以“man”結尾的名稱,可以使用 regex man$ 來匹配序列 m、a 和 n,并且后面緊接與 regex 操作符 $ 匹配的行(字符串)。
查找空行
基于 ^ 和 $ 的作用,您可以使用 regex ^$ 來查找空行(相當于在開始之后立即結束的行)。
備選項或集合操作符
要查找以“bat”、“Bat”、“cat”或“Cat”開頭的單詞,可以使用以下兩個技巧。首先是備選項,如果備選項中的任意 模式匹配,都會產(chǎn)生匹配的結果。例如,命令:
grep -E '^(bat|Bat|cat|Cat)' heroes.txt
可實現(xiàn)這一技巧。regex 操作符 |(豎線)表示備選項,因此 this|that 匹配字符串 this 或字符串 that。因此,^(bat|Bat|cat|Cat) 表示“行首緊跟 bat、Bat、cat 或 Cat之一?!碑斎?,可以使用 grep -i 來簡化該 regex,這樣可以忽略大小寫,從而將命令簡化為:
grep -i -E '^(bat|cat)' heroes.txt
匹配“bat”、“Bat”、“cat”或“Cat”的另一個方法是使用 [ ](方括號)集合 操作符。如果將一組字符放在一個集合中,則可以匹配那些字符中的任意一個。(您可以將集合 看作是字符備選項的簡寫法。)
例如,命令行:
grep -E '^[bcBC]at' heroes.txt
與以下命令生成的結果相同:
grep -E '^(bat|Bat|cat|Cat)' heroes.txt
您可以再次使用 -i 將 regex 簡化為 ^[bc]at。
而且,還可以使用 -(連字符)操作符在集合中指定包含的字符范圍。例如,用戶名通常以字母開頭。假定要在提交給您的服務器的 Web 表格中驗證這樣的用戶名,可以使用類似于 ^[A-Za-z] 的 regex。此 regex 表示“字符串的開頭后緊跟任意大寫字母 (A-Z) 或任意小寫字母 (a-z)?!表槺阏f明一下,[A-z] 與 [A-Za-z] 作用相同。
還可以在集合中混合使用范圍和單個字符。regex [A-MXYZ] 將匹配任意大寫的 A-M、X、Y 和 Z。
并且,如果希望反轉集合(即排除集合中的任意字符),可以使用特殊集合 [^ ] 并包含要排除的范圍或字符。以下是反轉集合的示例。要查找所有名稱中包含 at 的超級英雄,并排除 Dark Knight 和 Batman,請鍵入:
grep -i -E '[^b]at' heroes.txt
此命令生成:
Catwoman
Black Cat
由于某些集合需要經(jīng)常使用,所以設計出簡化符號以代替大量字符。例如,集合 [A-z0-9_] 十分常用,因此可以簡寫為 /w。與此類似,操作符 /W 是集合 [^A-z0-9_] 的簡寫。還可以使用符號 [:alnum:] 代替 /w,使用 [^[:alnum:]] 代替 /W。
順便說明一下,/w(以及同義詞 [:alnum:])是特定于區(qū)域的,而 [A-z0-9_] 即表示字母 A-z、數(shù)字 0-9 和下劃線。如果要開發(fā)國際化應用程序,請使用區(qū)域特定的格式以使代碼可以在許多區(qū)域之間移植。
跟我一起重復:重復,重復,重復
到目前為止,已經(jīng)介紹了字面值、位置和兩種備選項操作符。僅使用這些內容,就可以匹配大多數(shù)具有可預測 長度的模式?,F(xiàn)在回到用戶名,通過以下 regex 命令可以確保每個用戶名以字母開頭并緊跟恰好七個字母或數(shù)字:
[a-z][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9]
但是這樣有點笨拙。而且,它只匹配恰好八個字符的用戶名。它不會匹配三到八個字符之間的名稱,這通常也是有效的用戶名。
正則表達式還可以包括重復修飾符。重復修飾符可以指定數(shù)量,如沒有、一個、多個、一個或多個,零或一個、五到十個,以及恰好三個。重復修飾符必須與其他模式組合,修飾符本身沒有含義。
例如,regex:
^[A-z][A-z0-9]{2,7}$
可以實現(xiàn)前面描述的用戶名過濾功能。用戶名 是以字母開頭,后面緊跟至少兩個,但不超過七個字母或數(shù)字的字符串,并且緊跟字符串結尾。
此處的位置定位點非常重要。如果沒有兩個位置操作符,則會錯誤地接受任意長度的用戶名。為什么呢?請考慮 regex:
^[A-z][A-z0-9]{2,7}
此命令辨別:字符串是否以字母開頭并緊跟二到七個字母?但是它未提到終止條件。因此,字符串 samuelclemens 滿足條件,但是它的長度顯然超出了有效用戶名的范圍。與此類似,省略開始定位點 ^,或同時省略兩個定位點將分別匹配以類似 munster1313 結束或包含該字符串的字符串。如果必須匹配特定的長度,請記得在要求的模式的開頭和結尾分別加上分隔符。
以下是其他一些示例:
regex boys? 匹配 boy 或 boys;regex Goo?gle 匹配 Gogle 或 Google。
regex Goo+gle 匹配 Google、Gooogle、Goooogle 等等。
construct Goo*gle 匹配 Gogle、Google、Gooogle 等等。
The rain in Spain falls mainly
on the the plain.It was the best of of times;
it was the worst of times.
命令 grep -i -E '(/b(of|the)/W+){2,}' test.txt 將生成:
on the the plain.
It was the best of of times;
regex 操作符 /b 匹配單詞邊界 或 (/W/w|/w/W)。該 regex 表示“一連串完整單詞‘the'或‘of'后面緊跟非文字字符?!蹦赡軙岢鲆蓡?,為什么 /W+ 是必需的:/b 是位于單詞開頭或結尾的空字符串。在單詞之間必須包括這一(或這些)字符,否則該 regex 將無法找到匹配。
捕獲需要注意的內容
查找文本是常見的問題,但是更常見的問題則是希望在找到文本之后將其提取出來。換句話說,您希望去粗取精。
正則表達式通過捕獲 來提取信息。如果希望將需要的文本與其他內容分開,請使用圓括號將模式括起來。實際上,您已經(jīng)使用圓括號收集術語;在默認情況下,圓括號自動進行捕獲。
要查看捕獲,請切換到 Perl。(grep 實用工具不支持捕獲,因為其目標是打印包含模式的行。)
以下命令:
perl -n -e '/^The/s+(.*)$/ print "$1/n"' heroes.txt
將打印:
Tick
Punisher
使用命令 perl -e 可以直接從命令行運行 Perl 程序。perl -n 命令針對輸入文件的每一行運行一次程序。命令的 regex 部分,即位于斜杠之間的文本(/)表示“匹配字符串的開頭,然后字母‘T'、‘h'、‘e'后緊跟一個或多個空格字符 /s+,然后捕獲直到字符串結尾的所有字符。
Perl 捕獲內容被放在以 $1 開頭的特殊 Perl 變量中。Perl 程序的其余部分打印捕獲的內容。
每個嵌套的括號對,從左開始算起,每個左圓括號加一,放在下一個特殊的數(shù)字變量中。例如:
perl -n -e '/^(/w)+-(/w+)$/ print "$1 $2"'
將生成:
Spider Man
Ant Man
Spider Woman
捕獲感興趣的文本僅僅是隔靴搔癢。如果能夠準確確定材料,就可以使用其他材料改變其外觀。類似于 vi 和 Emacs 的編輯器將模式匹配與替換組合,從而將查找和替換文本組合成一步操作。還可以使用模式、替換和 sed 從命令行更改文本。
豐富的主題
正則表達式非常強大;可供使用的操作符的數(shù)量龐大,種類繁多。它包含如此豐富的信息和實踐知識,我們在這里所能列舉的實屬鳳毛麟角。
幸運的是,有以下三種優(yōu)秀的正則表達式理論來源可供使用:
在命令行中,可以采用許多方法使用正則表達式。幾乎每個處理文本的命令都支持某種形式的正則表達式。大多數(shù) Shell 命令語法還或多或少地擴展正則表達式以匹配文件名(盡管操作符的功能可能有所不同)。
例如,鍵入 ls [a-c] 以查找名為 a、b 或 c 的文件。鍵入 ls [a-c]* 以查找以 a、b 或 c 開頭的所有文件名。此處的 * 在 Shell 中不像 grep 的解釋器那樣修飾 [a-c],* 被解釋為 .*。? 操作符在 Shell 中也可以工作,但是被解釋為 .,即匹配任意單個字符。
查看您最喜歡的實用工具或 Shell 的文檔以確定哪些 regex 操作符受支持,以及操作符可能具有的獨特性。
Unix grep正則表達式元字符
一個正則表達式就是由普通字符(例如字符 a 到 z)以及特殊字符(稱為元字符)組成的文字模式。該模式描述在查找文字主體時待匹配的一個或多個字符串。正則表達式作為一個模板,將某個字符模式與所搜索的字符串進行匹配。
/
將下一個字符標記為一個特殊字符、或一個原義字符、或一個 后向引用、或一個八進制轉義符。例如,'n' 匹配字符 "n"。'/n' 匹配一個換行符。序列 '//' 匹配 "/" 而 "/(" 則匹配 "("。
^
匹配輸入字符串的開始位置。
$
匹配輸入字符串的結束位置。
*
匹配前面的子表達式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等價于{0,}。
+
匹配前面的子表達式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等價于 {1,}。
?
匹配前面的子表達式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等價于 {0,1}。
{n}
n 是一個非負整數(shù)。匹配確定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的兩個 o。
{n,}
n 是一個非負整數(shù)。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等價于 'o+'。'o{0,}' 則等價于 'o*'。
{n,m}
m 和 n 均為非負整數(shù),其中n = m。最少匹配 n 次且最多匹配 m 次。 "o{1,3}" 將匹配 "fooooood" 中的前三個 o。'o{0,1}' 等價于 'o?'。請注意在逗號和兩個數(shù)之間不能有空格。
?
當該字符緊跟在任何一個其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面時,匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串,而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如,對于字符串 "oooo",'o+?' 將匹配單個 "o",而 'o+' 將匹配所有 'o'。
.
匹配除 "/n" 之外的任何單個字符。要匹配包括 '/n' 在內的任何字符,請使用象 '[./n]' 的模式。
(pattern)
匹配pattern 并獲取這一匹配。所獲取的匹配可以從產(chǎn)生的 Matches 集合得到,在VBScript 中使用 SubMatches 集合,在Visual Basic Scripting Edition 中則使用 $0…$9 屬性。要匹配圓括號字符,請使用 '/(' 或 '/)'。
(?:pattern)
匹配 pattern 但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以后使用。這在使用 "或" 字符 (|) 來組合一個模式的各個部分是很有用。例如, 'industr(?:y|ies) 就是一個比 'industry|industries' 更簡略的表達式。
(?=pattern)
正向預查,在任何匹配 pattern 的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如, 'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。預查不消耗字符,也就是說,在一個匹配發(fā)生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預查的字符之后開始。
(?!pattern)
負向預查,在任何不匹配Negative lookahead matches the search string at any point where a string not matching pattern 的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。預查不消耗字符,也就是說,在一個匹配發(fā)生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預查的字符之后開始。
x|y
匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 則匹配 "zood" 或 "food"。
[xyz]
字符集合。匹配所包含的任意一個字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。
[^xyz]
負值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。
[a-z]
字符范圍。匹配指定范圍內的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范圍內的任意小寫字母字符。
[^a-z]
負值字符范圍。匹配任何不在指定范圍內的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范圍內的任意字符。
/b
匹配一個單詞邊界,也就是指單詞和空格間的位置。例如, 'er/b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。
/B
匹配非單詞邊界。'er/B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。
/cx
匹配由x指明的控制字符。例如, /cM 匹配一個 Control-M 或回車符。 x 的值必須為 A-Z 或 a-z 之一。否則,將 c 視為一個原義的 'c' 字符。
/d
匹配一個數(shù)字字符。等價于 [0-9]。
/D
匹配一個非數(shù)字字符。等價于 [^0-9]。
/f
匹配一個換頁符。等價于 /x0c 和 /cL。
/n
匹配一個換行符。等價于 /x0a 和 /cJ。
/r
匹配一個回車符。等價于 /x0d 和 /cM。
/s
匹配任何空白字符,包括空格、制表符、換頁符等等。等價于 [ /f/n/r/t/v]。
/S
匹配任何非空白字符。等價于 [^ /f/n/r/t/v]。
/t
匹配一個制表符。等價于 /x09 和 /cI。
/v
匹配一個垂直制表符。等價于 /x0b 和 /cK。
/w
匹配包括下劃線的任何單詞字符。等價于'[A-Za-z0-9_]'。
/W
匹配任何非單詞字符。等價于 '[^A-Za-z0-9_]'。
/xn
匹配 n,其中 n 為十六進制轉義值。十六進制轉義值必須為確定的兩個數(shù)字長。例如, '/x41' 匹配 "A"。'/x041' 則等價于 '/x04' "1"。正則表達式中可以使用 ASCII 編碼。.
/num
匹配 num,其中 num 是一個正整數(shù)。對所獲取的匹配的引用。例如,'(.)/1' 匹配兩個連續(xù)的相同字符。
/n
標識一個八進制轉義值或一個后向引用。如果 /n 之前至少 n 個獲取的子表達式,則 n 為后向引用。否則,如果 n 為八進制數(shù)字 (0-7),則 n 為一個八進制轉義值。
/nm
標識一個八進制轉義值或一個后向引用。如果 /nm 之前至少有is preceded by at least nm 個獲取得子表達式,則 nm 為后向引用。如果 /nm 之前至少有 n 個獲取,則 n 為一個后跟文字 m 的后向引用。如果前面的條件都不滿足,若 n 和 m 均為八進制數(shù)字 (0-7),則 /nm 將匹配八進制轉義值 nm。
/nml
如果 n 為八進制數(shù)字 (0-3),且 m 和 l 均為八進制數(shù)字 (0-7),則匹配八進制轉義值 nml。
/un
匹配 n,其中 n 是一個用四個十六進制數(shù)字表示的 Unicode 字符。例如, /u00A9 匹配版權符號 (?)。
其實很多正則表達式語法基本上統(tǒng)一的,主要是調用的方法不同。更多的可以參考這篇文章
https://www.jb51.net/tools/shell_regex.html
標簽:南昌 延邊 中衛(wèi) 黑河 阜陽 欽州 臨夏 駐馬店
巨人網(wǎng)絡通訊聲明:本文標題《UNIX/LINUX SHELL 正則表達式語法詳解附使用方法》,本文關鍵詞 UNIX,LINUX,SHELL,正則,表達式,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。