请教ASP 正则高手一个规则的写法，感谢！

xyz98765 2011-04-14 10:18:05

我想写一个通用的正则规则，用于采集新闻时提取想要的内容，这个内容出现的次数不确定，有时候可能不出现，有时候可能出现几十次。

被采集的内容一：新浪的博客，其中这样的代码我想替换
原内容：<img real_src ="http://s1.sinaimg.cn/middle/5919b50et693500716de0" /></A>
通过规则采集提取 http://s1.sinaimg.cn/middle/5919b50et693500716de0

被采集的内容二：
文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容
<div id=yued>
<div class=tit>新闻推荐阅读</div>
<div class=yuebox>
<div class=imgcon><a href="#" target=_blank><img border=0 alt="" src="#" width=104 height=90></a><span><a href="#" target=_blank>标题一</a><br><a href="#" target=_blank><strong>标题2</strong></a><br></span>
<div class=clear></div></div>
<div class=testlinh><a href="#" target=_blank>标题3</a></div>
<ul class=testlinhul>
<li><a href="#" target=_blank>标题4</a></li>

<li><a href="#" target=_blank>标题5</a></li>

<li><a href="#" target=_blank>标题6</a></li>

<li><a href="#" target=_blank>标题7</a></li>

<li><a href="#" target=_blank>[标题8]</a><a href="#" target=_blank>标题9</a></li>

<li><a href="#" target=_blank>[标题10]</a><a href="#" target=_blank>标题11</a></li>

<li><a href="#" target=_blank>[标题12]</a><a href="#" target=_blank>标题13？</a></li>
</ul>
</div></div>文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容

通过规则采集提取<div id=yued>与中间的内容

我定义了一个函数 thtxt,这个函数由html的textarea事先定制，定制的规则：$*$代表不确定的内容，被替换的内容@@@@替换后的内容
针对第一个情况我的thtxt值为src="$*$"@@@@src="$参数1$.jpg”
针对第二个情况我的thtxt值为<div id=yued>$*$@@@@Null
我的ASP正则处理如下：
zzz=split(thtxt,"@@@@")
If Instr(zzz(0),"$*$")>0 Then'如果包含$*$,进行特殊替换处理
b1=split(zzz(0),"$*$")
Set Re = New Regexp
Re.IgnoreCase = True
Re.Global = True
' Re.Pattern =b1(0)&".*?"&b1(1)&"" '----这种写法只对第一种情况有效，对第二种情况无效
Re.Pattern = b1(0)&"(.*?)"&b1(1) '----这种写法只对第二种情况有效，对第一种情况无效
Set Matches =Re.Execute(Content)
For Each Match in Matches
b2=Match.Value

If TempStr<>"" then
TempStr=TempStr & "$Array$" & b2
Else
TempStr=b2
End if
Next
c1=split(TempStr,"$Array$")
response.write "匹配到的内容："&TempStr&"=============================="

end if

请问如何写规则可以同时用于第一种和第二种情况？感谢

...全文

143 6 打赏收藏转发到动态举报

写回复

用AI写文章

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

lsf5921 2011-04-14

打赏
举报

你说的不是很懂，上面说，提取出url出来，后面貌似你又是把src替换了

只是单单提取出url出来，凭那个html完全可以写成
RegExp.Pattern = "<a src=""([^#:][^""]*"""
Set Matches = RegExp.Execute(HTMLCONTENT)
For Each Matche In Matches
getValue = Matche.SubMatches(0)
Next

你后面又说要替换，并且不能统一正则
但是从你的两个正则形势来看，第二个在实际意义上只比第一个多了个括号，但是这个括号在执行匹配时没任何影响。如果非得出错误，那么就是你第一个的正则中没写好，估计有正则匹配符影响了你的匹配，所以猜测的情况有两种。
第一种，你从teatarea中获取过来的是你执行想使用的正则
第二种，你从textarea中获取过来的是HTML，你并不打算把$*$,@@@@之外的字符中的正则关键字作为正则使用，这种情况你就要对这些字符进行处理了。如果是这种情况下，给你一个函数，去除正则的关键字。



Function getRegExpStr(ByVal str)

	Dim arrErr,i

	str=tostr(str)

	strErr = Array("\","|",".","*","?","+","^","$","{","}","[","]","(",")",vbcr,vblf)

	For i=0 To UBound(arrErr)

		str = Replace(str, arrErr(i), "\" & arrErr(i))

	Next

	getRegExpStr = str

End Function

希望对你有用

xyz98765 2011-04-14

打赏
举报

取img src的路径这样写的
/：<img real_src =\".*?\" >/

取出过滤部分是这样写的
/<div class=yuebox>[\s\S]+/

我想要【.*?】和【[\s\S]+】整合在一起的写法

xyz98765 2011-04-14

打赏
举报

感谢楼上的支持方法可行
我现在还再想匹配
：<img real_src ="http://s1.sinaimg.cn/middle/5919b50et693500716de0" /></A>
红色部分的

应该怎么写呢？

hongmei85 2011-04-14

打赏
举报

		<textarea name="kk" id="kk" rows="10" cols="50">文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容

<div id=yued>

<div class=tit>新闻推荐阅读</div>

<div class=yuebox><!--新闻图片区 -->

<div class=imgcon><a href="#" target=_blank><img border=0 alt="" src="#" width=104 height=90></a><span><a href="#" target=_blank>标题一</a><br><a href="#" target=_blank><strong>标题2</strong></a><br></span>

<div class=clear></div></div><!--图区 结束-->

<div class=testlinh><a href="#" target=_blank>标题3</a></div>

<ul class=testlinhul>

<li><a href="#" target=_blank>标题4</a></li>



<li><a href="#" target=_blank>标题5</a></li>



<li><a href="#" target=_blank>标题6</a></li>



<li><a href="#" target=_blank>标题7</a></li>



<li><a href="#" target=_blank>[标题8]</a><a href="#" target=_blank>标题9</a></li>



<li><a href="#" target=_blank>[标题10]</a><a href="#" target=_blank>标题11</a></li>



<li><a href="#" target=_blank>[标题12]</a><a href="#" target=_blank>标题13？</a></li>

</ul>

</div></div><!--新闻推荐阅读 结束-->文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容

</textarea>

<script type="text/javascript">

<!--

	var re = /<div class=yuebox>[\s\S]+<!--新闻推荐阅读 结束-->/

	var jj = re.exec(document.getElementById("kk").value)

	alert(jj[0]);

//-->

</script>

xyz98765 2011-04-14

打赏
举报

再简单的就是我想匹配出<div id=yued>不确定的内容 之间的蓝色部分
谢谢

xyz98765 2011-04-14

打赏
举报

感谢楼上给出的函数，可能是我写的不太明白我再说一下吧。
===================================================
我想写一个通用的正则式，用于采集时处理采集正文里不想要的内容和需要更换的内容
所以我设置了这样的一个正则式的模型
<div id=yued>$*$@@@@Null

$*$代表不想要的内容（同时这个内容也是不确定的）
被替换的内容@@@@替换的内容

目前碰到的情况是这样的：
采集新浪博客里的文章，文章里包含图片。但图片没有扩展名，我想加上扩展名，所以我在ID=thtxt的textarea写了 src="$*$"@@@@src="$参数1$.jpg”
然后提交到采集页面，此页面有一个thtxt的函数接收到了src="$*$"@@@@src="$参数1$.jpg”
进行处理
zzz=split(thtxt,"@@@@")
If Instr(zzz(0),"$*$")>0 Then'如果包含$*$,进行特殊替换处理
b1=split(zzz(0),"$*$")
Set Re = New Regexp
Re.IgnoreCase = True
Re.Global = True
Re.Pattern =b1(0)&".*?"&b1(1)&"" '----这个是正则写法
Set Matches =Re.Execute(Content)
For Each Match in Matches
b2=Match.Value
If TempStr<>"" then
TempStr=TempStr & "$Array$" & b2
Else
TempStr=b2
End if
Next
response.write "匹配到的内容："&TempStr&"=============================="

测试通过

第二种情况：
去掉采集文章中的不想要的内容，情况如下：
文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容
<div id=yued>
<div class=tit>新闻推荐阅读</div>
<div class=yuebox>
<div class=imgcon><a href="#" target=_blank><img border=0 alt="" src="#" width=104 height=90></a><span><a href="#" target=_blank>标题一</a><br><a href="#" target=_blank><strong>标题2</strong></a><br></span>
<div class=clear></div></div>
<div class=testlinh><a href="#" target=_blank>标题3</a></div>
<ul class=testlinhul>
<li><a href="#" target=_blank>标题4</a></li>

<li><a href="#" target=_blank>标题5</a></li>

<li><a href="#" target=_blank>标题6</a></li>

<li><a href="#" target=_blank>标题7</a></li>

<li><a href="#" target=_blank>[标题8]</a><a href="#" target=_blank>标题9</a></li>

<li><a href="#" target=_blank>[标题10]</a><a href="#" target=_blank>标题11</a></li>

<li><a href="#" target=_blank>[标题12]</a><a href="#" target=_blank>标题13？</a></li>
</ul>
</div></div>文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容文章内容
====================
红色部分为要使用正则取出并去掉的部分
我在ID=thtxt的textarea写了 <div id=yued>$*$@@@@Null
然后提交到采集页面，此页面有一个thtxt的函数接收到了 <div id=yued>$*$@@@@Null进行处理
zzz=split(thtxt,"@@@@")
If Instr(zzz(0),"$*$")>0 Then'如果包含$*$,进行特殊替换处理
b1=split(zzz(0),"$*$")
Set Re = New Regexp
Re.IgnoreCase = True
Re.Global = True
Re.Pattern = b1(0)&"(.*?)"&b1(1)'----这个是正则写法
Set Matches =Re.Execute(Content)
For Each Match in Matches
b2=Match.Value
If TempStr<>"" then
TempStr=TempStr & "$Array$" & b2
Else
TempStr=b2
End if
Next
response.write "匹配到的内容："&TempStr&"=============================="

测试通过

=======================
、可以看到二个正则Re.Pattern写法不一样（蓝色字），我想写一个通用的，可以同时适合这二种情况的正则，感谢指导！

一.伪静态定义（百度百科）伪静态是相对真实静态来讲的，通常我们为了增强搜索引擎的友好面，都将文章内容生成静态页面，但是有的朋友为了实时的显示一些信息。或者还想运用动态脚本解决一些问题。不能用静态的方式来展示网站内容。但是这就损失了对搜索引擎的友好面。怎么样在两者之间找个中间方法呢，这就产生了伪静态技术。就是展示出来的是以html一类的静态页面形式，但其实是用ASP（php）一类的动态...

正则表达式规则 1. 正则表达式规则1.1 普通字符字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号，都是"普通字符"。表达式中的普通字符，在匹配一个字符串的时候，匹配与之相同的一个字符。举例1：表达式 "c"，在匹配字符串 "abcde" 时，匹配结果是：成功；匹配到的内容是："c"；匹配到的位置是：开始于2，结束于3。（注：下标从0开始还是从1开始，

//直接方法重载+匿名对象 //最基础的路由规则，也是默认的路由规则 routes.MapRoute( name: "Default", url: "{controller}/{action}/{id}", defaults: new { controller

当前版本：ver 0.1 beta 下载：http://nowgoo.zhuosong.com/validator.rar1、ASP Validator 简介 ASP Validator 是基于 ASP 的一个表单验证类，用于表单的服务器端验证。比如，验证表单中一个文本框（假设元素名为 UserEmail）的值是否为正确的电子邮件格式，按传统的方法您可能会编写这样的代码：

ASP.NET的SEO:正则表达式目前国内主流的网站内容管理系统中，有大部分是可以将动态的PHP、ASP、ASPX等文档直接生成HTML的。但是由于有些网站的内容较多，因此如果单纯的采取直接生成的方式，将会占用大量的服务器资源。在这种情况下，我们就可以使用“伪...