《Linux命令行与shell脚本编程大全》第二十章正则表达式

摘要：本章包括正则表达式的概念、定义BRE模式、扩展正则表达式及正则表达式实战等内容。此前已有同事发表过本章内容，但不同读者的读书笔记，也许有不同的收获。

本篇目录

20.1 什么是正则表达式

20.1.1 定义

正则表达式是你所定义的模式模板，Linux工具可以用它来过滤文本。比如sed编辑器或gawk程序在处理数据时使用正则表达式对数据进行模式匹配。如果数据匹配模式，会被接受并进一步处理；不匹配模式，就会被滤掉。

20.1.2 正则表达式的类型

正则表达式是通过正则表达式引擎（regular expression engine）实现的。

Linux中，有两种流行的正则表达式引擎：

POSIX基础正则表达式（basic regular expression，BRE）引擎
POSIX扩展正则表达式（extended regular expression，ERE）引擎

sed编辑器只符合了BRE引擎规范的子集

gawk程序用ERE引擎来处理它的正则表达式模式

20.2 定义 BRE 模式

20.2.1 纯文本

正则表达式并不关心模式在数据流中的位置。它也不关心模式出现了多少
次。一旦正则表达式匹配了文本字符串中任意位置上的模式，它就会将该字符串传回Linux工具。

数据流的位置、出现的次数不影响正则表达式匹配文本字符串。

正则表达式模式都区分大小写

正则表达式中使用空格和数字，也可以匹配多个连续空格

20.2.2 特殊字符

正则表达式识别的特殊字符包括

.*[]^${}\+?|()

要用某个特殊字符作为文本字符，就必须转义

反斜线是转义字符，加在特殊字符前。

由于反斜线是特殊字符，如果要在正则表达式模式中使用它，必须对其转义，这样就会有两个反斜线。

正斜线不是特殊字符，但是不转义会有错误，也需要转义

20.2.3 锚字符

脱字符^

1. 锁定在行首
脱字符（^）定义从数据流中文本行的行首开始的模式

脱字符出现在正则表达式模式的尾部，sed编辑器会将它当作普通字符来匹配。

2. 锁定在行尾

美元符（$）定义了行尾锚点，将这个特殊字符放在文本模式之后来指明数据行必须以该文本模式结尾。

3. 组合锚点

同一行中将行首锚点和行尾锚点组合在一起使用。

将两个锚点直接组合在一起，之间不加任何文本，这样过滤出数据流中的空白行。这是从文档中删除空白行的有效方法。

20.2.4 点号字符

特殊字符点号用来匹配除换行符之外的任意单个字符。必须匹配一个字符，如果在点号字符的位置没有字符，那么模式就不成立。

. XX，点号位置必须有字符，包括空格

20.2.5 字符组

使用方括号来定义一个字符组。方括号中包含所有你希望出现在该字符组中的字符。

[wl]an

在不太确定某个字符的大小写时，字符组会非常有用。

[Yy]es

可以在单个表达式中用多个字符组。

字符组不必只含有字母，也可以在其中使用数字

如果要确保只匹配五位数，就必须指明它们就在行首和行尾

字符组的一个极其常见的用法是解析拼错的单词

20.2.6 排除型字符组

寻找组中没有的字符，只要在字符组的开头加个脱字符，

[^cm]atain将含有c或m的排除了

20.2.7 区间

只需要指定区间的第一个字符、单破折线以及区间的最后一个字符就行了

^[0-9][0-9][0-9][0-9][0-9]$

也适用于字母

[c-h]at

还可以在单个字符组指定多个不连续的区间

[a-ch-m]at

20.2.8 特殊的字符组

BRE特殊字符组

组	描述
[[:alpha:]]	匹配任意字母字符，不管是大写还是小写
[[:alnum:]]	匹配任意字母数字字符0~9、A~Z或a~z
[[:blank:]]	匹配空格或制表符
[[:digit:]]	匹配0~9之间的数字
[[:lower:]]	匹配小写字母字符a~z
[[:upper:]]	匹配任意大写字母字符A~Z
[[:print:]]	匹配任意可打印字符
[[:punct:]]	匹配标点符号
[[:space:]]	匹配任意空白字符：空格、制表符、NL、FF、VT和CR