正则表达式研究——匹配重复标签和嵌套标签

CunningBoy 2010-09-04 10:32:57

最近版上有很多匹配网页内容的帖子，虽然也给出了很多答案，但是我对标签的匹配一直有个疑问就是如何匹配重复和嵌套标签，于是自己就写了一段验证代码如下：

<?php

//重复标签

$string = "<tr width='100'>1</tr><tr width='98'>2</tr>";

//贪吃模式

preg_match_all('#<tr[^>]*>.*</tr>#is', $string, $matches);

print_r($matches);



//非贪吃模式

//这里.*?中的?表示与默认的模式相反，如果默认配置是贪吃，这里就是非贪吃模式

//如果默认配置是非贪吃，这里就是贪吃模式(我们取默认配置是贪吃，请注意和其他地方?的意义区别)

preg_match_all('#<tr[^>]*>.*?</tr>#is', $string, $matches);

print_r($matches);



//嵌套标签

$string2 = "<table width='300'>1<table width='150'>2</table></table>";



//贪吃模式

preg_match_all('#<table[^>]*>.*</table>#is', $string2, $matches);

print_r($matches);



//非贪吃模式

preg_match_all('#<table[^>]*>.*?</table>#is', $string2, $matches);

print_r($matches);

?>

它的输出结果如下：
Array
(
[0] => Array
(
[0] => <tr width='100'>1</tr><tr width='98'>2</tr>
)

)
Array
(
[0] => Array
(
[0] => <tr width='100'>1</tr>
[1] => <tr width='98'>2</tr>
)

)
Array
(
[0] => Array
(
[0] => <table width='300'>1<table width='150'>2</table></table>

)

)
Array
(
[0] => Array
(
[0] => <table width='300'>1<table width='150'>2</table>
)

)
从上面的结果可以看出非贪吃模式在应对重复标签没有问题，但是显然匹配嵌套标签的结果不是我们想要的。
想问的是如何才能从嵌套标签中获得如下的结果：
Array
(
[0] => Array
(
[0] => <table width='300'>1<table width='150'>2</table></table>
[1] => <table width='150'>2</table>
)

)

...全文

617 12 打赏收藏转发到动态举报

写回复

用AI写文章

12 条回复

切换为时间正序

请发表友善的回复…

发表回复

hero1010 2010-09-06

打赏
举报

aaaabbbbccc<a href="aaa.html">aaaaabbbbcccc</a>aaaabbbccc
要把a标签外面的a元素找出来，该怎么匹配
preg_match_all("#<a[^>]*>(.*?)<\/a>#",$str2,$arr);这样写只能把a标签找到...

xuzuning 2010-09-06

打赏
举报

单纯的使用正则表达式，几乎是不可能完成的。即便是 .NET中的平衡组也是这样
即便是能够识别了，也不能很好的解决正文中出现的“<”、“>”。
比如 xml 解析器就要求强制转义<>
而专为解析 HTML 而设计的 tidy 依然不能识别正文中的 <字母组合

helloyou0 2010-09-04

打赏
举报

我相信这个可以做到或接近做到：
http://ca.php.net/manual/en/regexp.reference.recursive.php

下面的那个注释已经可以匹配对应的，但是似乎只是最外层的

quzhongxiong 2010-09-04

打赏
举报

上面有一点小问题,再发一个



preg_match_all('/([^\?|^>]>){1}([^>|^<\?|^\r\n|^if]+?)([<|<\/][^\?])/U', $string, $arr);

print_R($arr);

quzhongxiong 2010-09-04

打赏
举报



preg_replace('/(>)([^>|^<\?|^\r\n][^\d]+?)([<|<\/])/i', "$1<?php print_R(\$translate->_(\"$2\")) ?>$3", $data);

看一下这个是不是你想要的,我这里不是获取标签里面的内容,而是给标签里面的内容加上一个指定的函数,我试过了,只能匹配80%,要完全匹配还得花点心思

kyzy_yy_pm 2010-09-04

打赏
举报

嵌套模式呢？

kyzy_yy_pm 2010-09-04

打赏
举报

哎，看见正则就头疼啊，收藏下慢慢吸收

-过客- 2010-09-04

打赏
举报

[Quote=引用楼主 cunningboy 的回复:]
从上面的结果可以看出非贪吃模式在应对重复标签没有问题，但是显然匹配嵌套标签的结果不是我们想要的。
想问的是如何才能从嵌套标签中获得如下的结果：
Array
(
[0] => Array
(
[0] => <table width='300'>1<table width='150'>2</table></table>
[1] => <table width='150'>2</table>
)
[/Quote]

占位学习一下先

贪婪与非贪婪模式各有其应用场景，但都不能用来处理嵌套或配对出现的标记

.NET中的平衡组可以解决嵌套标签匹配的问题，记得以前好像在哪见过PHP中说是也有类似语法的，没有PHP环境，没法验证

不过针对楼主要求的结果，逐层获取嵌套标签，即使是支持平衡组或类似的语法，也不可能通过一个正则获取到这些结果的，还需要结合循环或者递归来达到这一目的

这样的话，正则无论从实现难易程度上，还是执行效率上就都不占优了
正则由于进行了尽可能的抽象，所以具有高度的灵活性和可扩展性，但是在处理某些特定问题的时候，它又会做许多额外的判断，无形中降低了匹配效率
其实正则也不过是有穷状态机的一种实现，我们完全可以通过“栈”的方式，自己去写个方法来实现这一需求

一家之言，欢迎讨论，PHP的代码我是写不出了，只能进行一下理论上的探讨