正则表达式匹配html问题

stwh 2007-03-17 07:16:11

需要匹配的HTML：<a>adfad</a><a>fafsdfa</a>

为什么这个正则表达式<a.*>(.*?)</a>匹配的是<a>adfad</a><a>fafsdfa</a>其中$1=>adfad</a><a
而这个正则表达式<a(.*?)>(.*?)</a>匹配的是<a>adfad</a>和<a>fafsdfa</a>
------------------------------------------------------------------------

下面正则匹配出来的结果，是我想要的，但是，为什么分组与不分组有这么大的差距？

...全文

390 9 打赏收藏转发到动态举报

写回复

用AI写文章

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

LEOlws 2007-03-19

打赏
举报

非贪婪模式：

在修饰匹配次数的特殊符号后再加上一个 "?" 号，则可以使匹配次数不定的表达式尽可能少的匹配，使可匹配可不匹配的表达式，尽可能的 "不匹配"。这种匹配原则叫作 "非贪婪" 模式，也叫作 "勉强" 模式。如果少匹配就会导致整个表达式匹配失败的时候，与贪婪模式类似，非贪婪模式会最小限度的再匹配一些，以使整个表达式匹配成功。举例如下，针对文本 "dxxxdxxxd" 举例：

表达式
匹配结果

(d)(\w+?)
"\w+?" 将尽可能少的匹配第一个 "d" 之后的字符，结果是："\w+?" 只匹配了一个 "x"

(d)(\w+?)(d)
为了让整个表达式匹配成功，"\w+?" 不得不匹配 "xxx" 才可以让后边的 "d" 匹配，从而使整个表达式匹配成功。因此，结果是："\w+?" 匹配 "xxx"

更多的情况，举例如下：

举例1：表达式 "<td>(.*)</td>" 与字符串 "<td>aa</td> <td>bb</td>" 匹配时，匹配的结果是：成功；匹配到的内容是 "<td>aa</td> <td>bb</td>" 整个字符串，表达式中的 "</td>" 将与字符串中最后一个 "</td>" 匹配。

举例2：相比之下，表达式 "<td>(.*?)</td>" 匹配举例1中同样的字符串时，将只得到 "<td>aa</td>"，再次匹配下一个时，可以得到第二个 "<td>bb</td>"。

LEOlws 2007-03-19

打赏
举报

非贪婪匹配

belldandy11 2007-03-18

打赏
举报

学习

cat_hsfz 2007-03-18

打赏
举报

这就是贪婪匹配的问题啊，只有(.*?)能够禁止贪婪匹配的过程。

在你的第一个表达式中，虽然禁止了<a>和</a>之间的贪婪匹配，但没有禁止<a>内的贪婪匹配，所以匹配时第一个(.*)就匹配了">adfad</a><a"（也就是第一个<a>到第二个<a>）。

chuxue1342 2007-03-18

打赏
举报

mark

-过客- 2007-03-17

打赏
举报

在使用修饰匹配次数的特殊符号时，有几种表示方法可以使同一个表达式能够匹配不同的次数，比如："{m,n}", "{m,}", "?", "*", "+"，具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中，总是尽可能多的匹配。比如，针对文本 "dxxxdxxxd"，举例如下：

(d)(\w+)　　 "\w+" 将匹配第一个 "d" 之后的所有字符 "xxxdxxxd"
(d)(\w+)(d) 　"\w+" 将匹配第一个 "d" 和最后一个 "d" 之间的所有字符 "xxxdxxx"。虽然 "\w+" 也能够匹配上最后一个 "d"，但是为了使整个表达式匹配成功，"\w+" 可以 "让出" 它本来能够匹配的最后一个 "d"

由此可见，"\w+" 在匹配的时候，总是尽可能多的匹配符合它规则的字符。虽然第二个举例中，它没有匹配最后一个 "d"，但那也是为了让整个表达式能够匹配成功。同理，带 "*" 和 "{m,n}" 的表达式都是尽可能地多匹配，带 "?" 的表达式在可匹配可不匹配的时候，也是尽可能的 "要匹配"。这种匹配原则就叫作 "贪婪" 模式。

非贪婪模式：

在修饰匹配次数的特殊符号后再加上一个 "?" 号，则可以使匹配次数不定的表达式尽可能少的匹配，使可匹配可不匹配的表达式，尽可能的 "不匹配"。这种匹配原则叫作 "非贪婪" 模式，也叫作 "勉强" 模式。如果少匹配就会导致整个表达式匹配失败的时候，与贪婪模式类似，非贪婪模式会最小限度的再匹配一些，以使整个表达式匹配成功。举例如下，针对文本 "dxxxdxxxd" 举例：

(d)(\w+?) 　　"\w+?" 将尽可能少的匹配第一个 "d" 之后的字符，结果是："\w+?" 只匹配了一个 "x"
(d)(\w+?)(d)　为了让整个表达式匹配成功，"\w+?" 不得不匹配 "xxx" 才可以让后边的 "d" 匹配，从而使整个表达式匹配成功。因此，结果是："\w+?" 匹配 "xxx"

<a.*>(.*?)</a>这里的<a.*>为贪婪模式，匹配<a>adfad</a><a>fafsdfa</a>可以一直成功匹配到最后，这里的$1应为fafsdfa
而比如匹配字符串改为<a>adfad</a><a>fafsdfa</table>，这样正则表达式若要匹配成功，只能匹配到<a>adfad</a>，此时$1是adfad
<a(.*?)>(.*?)</a>这里的<a(.*?)>为非贪婪模式，所以可以分别匹配<a>adfad</a>和<a>fafsdfa</table>

当然，这里还有另外一个潜在的原因，那就是
. 小数点可以匹配除了换行符（\n）以外的任意一个字符
如果正则式改成<a[^>]*>(.*?)</a>，即使同样为贪婪模式，那和它将与<a(.*?)>(.*?)</a>匹配的结果一致

kissknife 2007-03-17

打赏
举报

正如一楼说的，这跟加分组是没有关系的，而是那个“？”号，表示非贪婪
如果是贪婪模式，那么<a.*>(.*?)</a>中的第一个“.*”，将一直向后匹配到最后，然后回溯到“<a>adfad</a><a>fafsdfa</a>”的第三个“>”前，
其中$1应该也不是“>adfad</a><a”，而是“fafsdfa”...