如何用正则表达式提取网页内容?
要求如下:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
"http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>无标题文档</title>
</head>
<body>
<form name="form1" method="post" action="">
<p>姓名:lizhizhe2000(彬彬 )
</p>
<p>地址格式等),它具有用来检查给出的字符串是否符合规则的属性和方法。 <br>
除此之外,你用RegExp构造器建立的个别正则表达式对象的属性,就已经预先定义好了正则表达式 </p>
<p><img src="protfield.gif" width="16" height="16">
<img src="protmethod.gif" width="16" height="16"></p>
</form>
</body>
</html>
如何用正则表达式实现除了图片标记<img....>以外,将其他标记中的内容正确提取出, <img..>保持原样,即上面的文本处理后得到如下结果:
姓名:lizhizhe2000(彬彬 )
地址格式等),它具有用来检查给出的字符串是否符合规则的属性和方法。
除此之外,你用RegExp构造器建立的个别正则表达式对象的属性,就已经预先定义好了正则表达式
<img src="protfield.gif" width="16" height="16">
<img src="protmethod.gif" width="16" height="16">