提取HTML标签的正则表达式解决方案(圣诞快乐,强烈推荐)

AllCHN 2003-12-24 08:41:49
<font color=red>
<hr size=1>
</table>
上面这样的标签当然很好,可是如果混合了 Javascript 的标签或者有自定义属性的标签,提取起来就有很大难度,比如下面这样的:

<IMG UBB SRC="/ucgi/ubb_view.cgi?ubb=view;up=AllCHN;f=13;file=45.jpg" ALIGN="right" BORDER="0" onload="javascript:if(this.style.width>600){this.style.width=600;this.style.cursor='hand';}" onclick="javascript:if(this.style.cursor=='hand'){var nw=window.open('about:blank','_blank','');nw.document.open();nw.document.write('<img src='+this.src+'>');nw.document.close();nw.document.title='查看';nw=null;}" name="TopicImg" dragEnabled />

这里提供一个正则表达式,可以解决这个问题:
/<\/?\w+(\s+\S+?(=([\'\"]?).*?[^\\]\3)?)*\W*>/

如果你有更好的方法,或者上面的表达式有所遗漏,请交流。


...全文
24 点赞 收藏 2
写回复
2 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
gottazhang 2003-12-25
well
回复
bzscs 2003-12-24
good
回复
相关推荐
发帖
CGI
创建于2007-09-28

2184

社区成员

Web 开发 CGI
申请成为版主
帖子事件
创建了帖子
2003-12-24 08:41
社区公告
暂无公告