正则表达式过滤HTML代码问题。

painache 2003-11-28 11:09:50
下面是一段WORD文件另存为HTML文件的HTML代码
<html>

<head>
<meta http-equiv=Content-Type content="text/html; charset=gb2312">
<meta name=Generator content="Microsoft Word 10 (filtered)">
<title>Hello1</title>

<style>
<!--
/* Font Definitions */
@font-face
{font-family:宋体;
panose-1:2 1 6 0 3 1 1 1 1 1;}
@font-face
{font-family:"\@宋体";
panose-1:2 1 6 0 3 1 1 1 1 1;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{margin:0cm;
margin-bottom:.0001pt;
text-align:justify;
text-justify:inter-ideograph;
font-size:10.5pt;
font-family:"Times New Roman";}
/* Page Definitions */
@page Section1
{size:595.3pt 841.9pt;
margin:72.0pt 90.0pt 72.0pt 90.0pt;
layout-grid:15.6pt;}
div.Section1
{page:Section1;}
-->
</style>

</head>

<body lang=ZH-CN style='text-justify-trim:punctuation'>

<div class=Section1 style='layout-grid:15.6pt'>

<table class=MsoNormalTable border=1 cellspacing=0 cellpadding=0 align=left
style='border-collapse:collapse;border:none;margin-left:6.75pt;margin-right:
6.75pt'>
<tr style='height:22.5pt'>
<td width=84 rowspan=2 valign=top style='width:63.0pt;border:solid windowtext 1.0pt;
padding:0cm 5.4pt 0cm 5.4pt;height:22.5pt'>
<p class=MsoNormal><span lang=EN-US>Hello1</span></p>
</td>
<td width=348 colspan=3 valign=top style='width:261.0pt;border:solid windowtext 1.0pt;
border-left:none;padding:0cm 5.4pt 0cm 5.4pt;height:22.5pt'>
<p class=MsoNormal><span lang=EN-US>Hello2</span></p>
</td>
</tr>
<tr style='height:15.0pt'>
<td width=348 colspan=3 valign=top style='width:261.0pt;border-top:none;
border-left:none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
padding:0cm 5.4pt 0cm 5.4pt;height:15.0pt'>
<p class=MsoNormal><span lang=EN-US>Hello3</span></p>
</td>
</tr>
<tr style='height:31.5pt'>
<td width=132 colspan=2 valign=top style='width:99.0pt;border:solid windowtext 1.0pt;
border-top:none;padding:0cm 5.4pt 0cm 5.4pt;height:31.5pt'>
<p class=MsoNormal><span lang=EN-US>Hello4</span></p>
</td>
<td width=156 valign=top style='width:117.0pt;border-top:none;border-left:
none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
padding:0cm 5.4pt 0cm 5.4pt;height:31.5pt'>
<p class=MsoNormal><span lang=EN-US>Hello5</span></p>
</td>
<td width=144 valign=top style='width:108.0pt;border-top:none;border-left:
none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
padding:0cm 5.4pt 0cm 5.4pt;height:31.5pt'>
<p class=MsoNormal><span lang=EN-US>Hello6</span></p>
</td>
</tr>
<tr height=0>
<td width=84 style='border:none'></td>
<td width=48 style='border:none'></td>
<td width=156 style='border:none'></td>
<td width=144 style='border:none'></td>
</tr>
</table>

<p class=MsoNormal><span lang=EN-US> </span></p>

</div>

</body>

</html>

我想把整个代码中的<table><tr><td>标签中的样式属性给过滤掉。比方说把
<td width=144 valign=top style='width:108.0pt;border-top:none;border-left:
none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
padding:0cm 5.4pt 0cm 5.4pt;height:31.5pt'>
过滤成干净的<td>。
自己写了好多pattern都不成。刚接触正则表达式,还不熟悉,请各位帮忙。最好能提供VBSCRIPT版本的代码。
...全文
27 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
Jaron 2003-11-28
  • 打赏
  • 举报
回复
呵呵,要考虑换行符。忘记说了。
monkeys 2003-11-28
  • 打赏
  • 举报
回复
学了一招
painache 2003-11-28
  • 打赏
  • 举报
回复
OK,OK搞定了!
objRegExp.Pattern = "<td(.|\n)+?>"
painache 2003-11-28
  • 打赏
  • 举报
回复
用objRegExp.Pattern = "<td.+?>"这个模式,只能在MatchCol集合中取到以下4个Match。那些属性中有换行符号的取不到。
<td width=84 style='border:none'>
<td width=48 style='border:none'>
<td width=156 style='border:none'>
<td width=144 style='border:none'>
Jaron 2003-11-28
  • 打赏
  • 举报
回复
objRegExp.Pattern = "<td.+?>"

28,390

社区成员

发帖
与我相关
我的任务
社区描述
ASP即Active Server Pages,是Microsoft公司开发的服务器端脚本环境。
社区管理员
  • ASP
  • 无·法
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧