先行断言和后行断言

正则表达式的先行断言(lookahead)和后行断言(lookbehind)

正则表达式的先行断言和后行断言一共有4种形式:

  1. (?=pattern) 零宽正向先行断言(zero-width positive lookahead assertion)
  2. (?!pattern) 零宽负向先行断言(zero-width negative lookahead assertion)
  3. (?<=pattern) 零宽正向后行断言(zero-width positive lookbehind assertion)
  4. (?<!pattern) 零宽负向后行断言(zero-width negative lookbehind assertion)

这里面的pattern是一个正则表达式。

如同^代表开头,$代表结尾,\b代表单词边界一样,先行断言和后行断言也有类似的作用,它们只匹配某些位置,在匹配过程中,不占用字符,所以被称为“零宽”。所谓位置,是指字符串中(每行)第一个字符的左边、最后一个字符的右边以及相邻字符的中间(假设文字方向是头左尾右)。下面分别举例来说明这4种断言的含义。

  1. 关于先行(lookahead)和后行(lookbehind):正则表达式引擎在执行字符串和表达式匹配时,会从头到尾(从前到后)连续扫描字符串中的字符,设想有一个扫描指针指向字符边界处并随匹配过程移动。先行断言,是当扫描指针位于某处时,引擎会尝试匹配指针还未扫过的字符,先于指针到达该字符,故称为先行。后行断言,引擎会尝试匹配指针已扫过的字符,后于指针到达该字符,故称为后行。
  2. 关于正向(positive)和负向(negative):正向就表示匹配括号中的表达式,负向表示不匹配。

对这4个断言形式的记忆:

  1. 先行和后行:后行断言(?<=pattern)(?<!pattern)中,有个小于号,同时也是箭头,对于自左至右的文本方向,这个箭头是指向后的,这也比较符合我们的习惯。把小于号去掉,就是先行断言。
  2. 正向和负向:不等于(!=)、逻辑非(!)都是用!号来表示,所以有!号的形式表示不匹配、负向;将!号换成=号,就表示匹配、正向。

我们经常用正则表达式来检测一个字符串中包含某个子串,要表示一个字符串中不包含某个字符或某些字符也很容易,用[^...]形式就可以了。要表示一个字符串中不包含某个子串(由字符序列构成)呢?用[^...]这种形式就不行了,这时就要用到(负向)先行断言或后行断言、或同时使用。

例如判断一句话中包含this,但不包含that

包含this比较好办,一句话中不包含that,可以认为这句话中每个字符的前面都不是that或每个字符的后面都不是that。正则表达式如下:^((?<!that).)*this((?<!that).)*$ ^(.(?!that))*this(.(?!that))*$

对于this is the case这句话,两个表达式都能够匹配成功,而note that this is the case都匹配失败。

在一般情况下,这两个表达式基本上都能够满足要求了。考虑极端情况,如一句话以that开头、以that结尾、that和this连在一起时,上述表达式就可能不胜任了。

note thatthis is the case或者this is the case, not that等。只要灵活运用这几个断言,就很容易解决:

/^(.(?<!that))*this(.(?<!that))*$/

/^(.(?<!that))*this((?!that).)*$/

/^((?!that).)*this(.(?<!that))*$/

/^((?!that).)*this((?!that).)*$/
1
2
3
4
5
6
7

这4个正则表达式测试上述的几句话,结果都能够满足要求。

上述4种断言,括号里的pattern本身是一个正则表达式。但对2种后行断言有所限制,在Perl和Python中,这个表达式必须是定长(fixed length)的,即不能使用*、+、?等元字符,如(?<=abc)没有问题,但(?<=a*bc)是不被支持的,特别是当表达式中含有|连接的分支时,各个分支的长度必须相同。之所以不支持变长表达式,是因为当引擎检查后行断言时,无法确定要回溯多少步。Java支持?、{m}、{n,m}等符号,但同样不支持*、+字符。JavascriptES6+支持后行断言,

今日图 - DNS 劫持

16a96f4b64f0ad8a.gif