返回列表 上一主題 發帖

[轉貼] Regexp 是什麽?

[轉貼] Regexp 是什麽?

本帖最後由 sunnyso 於 2013-8-22 10:16 編輯

註:這是以前save下來學習用的.

忘記出處了, 原作者請見諒. 歡迎各位知道出處的補完. 以示對原作者的尊重


Regexp 是一組大約三四十個特殊符號, 只要學會其中常用二十來個, 就能搜尋字串/代換字串, 甚至完成許多滑鼠選單做不到的驚奇繁雜工作。 以下舉一些例子; 為讓您專注於 regexp 本身, 暫時不寫出完整的指令, 只寫出指令中關於 regexp 的那一小段。

1.
英文的 "顏色" 一字, 有兩種拼法: color 及 colour。 用 regexp 表達, 可以一石兩鳥: colou?r 其中的 ? 表示 「前面的字元可有可無」
想要找 "port" 與 "ports", 但又不希望找到 "export", "portable", "important" 等等一大堆不相關的單字, 該怎麼辦? 用 \bports?\b 這裡的 \b 表示 「(文數字 vs. 標點符號等等其他字元 之間的) 邊界 (boundary); 旁邊不可有其他文數字」。 所謂文數字, 就是英文字母, 數字, 及底線 "_"。

2.
在一篇文章當中, 抓出所有 「看起來像是機場代碼的字串」 (例如 TPE 臺北, KHH 高雄, LAX 洛杉磯, ... 等等): \b[A-Z][A-Z][A-Z]\b。 這裡的 [A-Z] 是 [ABCDEFGHIJKLMNOPQRSTUVWXYZ] 的簡寫, 意思是 「任何一個大寫字母」
ss

本帖最後由 sunnyso 於 2013-8-22 10:11 編輯

4.
如何在一大片文字, 銀行帳號, 信用卡號... 當中, 找出看來像是行動電話號碼的字串, 例如 0912345678 或是 0912-345678 或是 0912-345-678 之類的? 09\d\d-?\d\d\d-?\d\d\d 這裡的 \d 是 [0-9] 的簡寫, 這又是 [0123456789] 的簡寫, 意思是 「任何一個數字字元」

5.
想要找一組數字 ip (例如 168.95.1.1 或 163.17.57 之類的) 印象中在某個檔案內曾看過, 但既不記得精確的數字, 也不記得在那個檔案看過, 該怎麼辦? 可以搜尋 \d+\.\d+\.\d+\.\d+ 抓出所有數字 ip。 這裡的 + 表示 「前面的東西, 可以重複出現 1 次, 2 次, 3 次, ... 任意次」。 因為 . 在 regexp 當中有特殊的意義: 「任何一個字元」; 但在這裡我們就是要找 "." 於是在前面加上 \ 以取消它的特殊意義。

6.  
可以把一個文字檔裡面的所有空白列都刪掉嗎? 這個 regexp 可以抓出所有空白列: ^\s*$。 在 regexp 最前面放一個 ^ 表示您只對 「出現在一列之首」 的樣版有興趣; 在 regexp 的最後面放一個 $ 表示您只對 「出現在一列之尾」 的樣版有興趣。 \s 是 [ \t\n] 的簡寫, 意思是 「任何一個空白字元」 (包含空格, tab, 等等)。 * 表示 「前面的東西, 可以重複出現 0 次, 1 次, 2 次, ... 任意次」。 這個樣版翻譯成中文, 就是 「從頭到尾都是一片空白的那種列」。

這裏大約使用了十個 regexp 特殊符號。 Regexp 總共大約有三四十個符號; 不過其中大約有一半較少用; 只要熟用兩打, 就已經可以變很多魔術了。 Regexp 是一種低成本, 高報酬的學習投資。 耐心把這份講義看一半, 絕對比花時間學花俏的圖形介面軟體更值回票價。
ss

TOP

本帖最後由 sunnyso 於 2013-8-22 10:14 編輯

這是以前save下來學習用的.

忘記出處了, 原作者請見諒. 歡迎各位知道出處的補完. 以示對原作者的尊重.
ss

TOP

回復 3# sunnyso
謝謝sunnyso大提供學習訊息
該文章出處是不是這呢?
http://www.cyut.edu.tw/~ckhung/b/re/

TOP

回復 4# p212

就是這個
一個很好的網站,值得一看
ss

TOP

回復 4# p212


    謝謝二位大大。
小弟會借此機會好好學習,
學到了真的會讓人終生受用。

感恩二位大大!

TOP

        靜思自在 : 一個缺口的杯子,如果換一個角度看它,它仍然是圓的。
返回列表 上一主題