正则表达式提取网页内容

ucipl 2007-08-17 09:03:57

<P><TABLE cellSpacing=0 cellPadding=0 width="94%" align=center border=0>
<TBODY>
<TR>
<TD class=TD_FONT>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">  北京市民习惯用的购物包装——塑料袋将被纸包装所取代。</SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">    近日,</SPAN><SPAN style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">在第十二届北京商业科技周上,北京的近百家商家联合对外发出了节能降耗倡议书。而市商务局也明确表示,将制止目前零售商业企业普遍使用塑料包装过多过滥现象的蔓延,推广纸质包装、布质包装,从根本上杜绝白色污染。</SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN lang=EN-US><SPAN style="mso-spacerun: yes">        </SPAN></SPAN><SPAN style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">多年来,无论是商场、超市还是菜场,塑料袋几乎是惟一的携带物。于是,用完的塑料袋就成了常见的垃圾。但这种垃圾无法回收、难以降解,许多没有条件的地方都是一埋了之。有关资料显示,全国仅每天买菜要用掉10亿只塑料袋。</SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN lang=EN-US><SPAN style="mso-spacerun: yes">     </SPAN></SPAN><SPAN style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">“制止目前零售商业企业普遍使用塑料包装过多过滥现象的蔓延,推广纸质包装、布质包装,从根本上杜绝白色污染。”昨天,在科技周上,市商务局表示将着力解决白色污染问题。</SPAN></P><SPAN style="FONT-SIZE: 10.5pt; FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-bidi-font-size: 12.0pt; mso-bidi-font-family: 'Times New Roman'; mso-font-kerning: 1.0pt; mso-ansi-language: EN-US; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA">   除了推广纸质包装外,市商务局还表示,将委托专业机构对商业服务业一次性用品的使用情况、总体数量进行调查、统计。并通过公开招投标的方式,指定相关企业建立再生资源回收、生产两个系统。</SPAN> </TD></TR>
<TR>
<TD>
<P> </P></TD></TR></TBODY></TABLE></P>

================================================================
高手教教提取里面的中文内容,如何写??????这是网页内容的一部分.
...全文
298 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
ucipl 2007-08-17
  • 打赏
  • 举报
回复
谢谢,有问题再来问.
-过客- 2007-08-17
  • 打赏
  • 举报
回复
Regex.Replace(m.Value, @"<[^>]*>", "")
这个就是把m.Value这个字符串里所有的<...>标签去掉,一般来说是通用的,但是如果<...>内有js代码,包含了“<”“>”这两个字符的时候,就不能用这个了,需要另做处理
ucipl 2007-08-17
  • 打赏
  • 举报
回复
得到了,Regex.Replace(m.Value, @"<[^>]*>", "") + "\n"; 这个是否通用呢,把多余的代码去掉
-过客- 2007-08-17
  • 打赏
  • 举报
回复
class固定为NFont14Black是吗?直接取,要用到平衡组或状态机,写起来比较麻烦,如果它是在<td...>...</td>标签内,就是上面这种格式,倒是可以这样做

string result = string.Empty;
Match m = Regex.Match(yourStr, @"(?<=<td[^>]*><span\s*class=""NFont14Black"">)[\s\S]*?(?=</span></td>)", RegexOptions .IgnoreCase);
if(m.Success)
result = m.Value;


如果并不一定在<td...>...</td>标签内,或者说格式不固定,再说明一下,我用平衡组或是状态机来做
ucipl 2007-08-17
  • 打赏
  • 举报
回复
我试试你上面说的
ucipl 2007-08-17
  • 打赏
  • 举报
回复
<td width="100%"><span class="NFont14Black">
<P><TABLE cellSpacing=0 cellPadding=0 width="94%" align=center border=0>
<TBODY>
<TR>
<TD class=TD_FONT>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">  北京市民习惯用的购物包装——塑料袋将被纸包装所取代。</SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">    近日,</SPAN><SPAN style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">在第十二届北京商业科技周上,北京的近百家商家联合对外发出了节能降耗倡议书。而市商务局也明确表示,将制止目前零售商业企业普遍使用塑料包装过多过滥现象的蔓延,推广纸质包装、布质包装,从根本上杜绝白色污染。</SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN lang=EN-US><SPAN style="mso-spacerun: yes">        </SPAN></SPAN><SPAN style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">多年来,无论是商场、超市还是菜场,塑料袋几乎是惟一的携带物。于是,用完的塑料袋就成了常见的垃圾。但这种垃圾无法回收、难以降解,许多没有条件的地方都是一埋了之。有关资料显示,全国仅每天买菜要用掉10亿只塑料袋。</SPAN></P>
<P class=MsoNormal style="MARGIN: 0cm 0cm 0pt"><SPAN lang=EN-US><SPAN style="mso-spacerun: yes">     </SPAN></SPAN><SPAN style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">“制止目前零售商业企业普遍使用塑料包装过多过滥现象的蔓延,推广纸质包装、布质包装,从根本上杜绝白色污染。”昨天,在科技周上,市商务局表示将着力解决白色污染问题。</SPAN></P><SPAN style="FONT-SIZE: 10.5pt; FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'; mso-bidi-font-size: 12.0pt; mso-bidi-font-family: 'Times New Roman'; mso-font-kerning: 1.0pt; mso-ansi-language: EN-US; mso-fareast-language: ZH-CN; mso-bidi-language: AR-SA">   除了推广纸质包装外,市商务局还表示,将委托专业机构对商业服务业一次性用品的使用情况、总体数量进行调查、统计。并通过公开招投标的方式,指定相关企业建立再生资源回收、生产两个系统。</SPAN> </TD></TR>
<TR>
<TD>
<P> </P></TD></TR></TBODY></TABLE></P>
</span></td>
=================================
想取这个固定位置里面的内容,包括些代码也行<span class="NFont14Black"> </span>
-过客- 2007-08-17
  • 打赏
  • 举报
回复
这是按<p>...</p>取出的,看看是不是你要的效果,其中的 楼主自己处理下

string yourStr = ...........;
MatchCollection mc = Regex.Matches(yourStr, @"<p[^>]*>[\s\S]*?</p>", RegexOptions.IgnoreCase);
foreach (Match m in mc)
{
richTextBox2.Text += Regex.Replace(m.Value, @"<[^>]*>", "") + "\n";
}

输出:

  北京市民习惯用的购物包装——塑料袋将被纸包装所取代。
    近日,在第十二届北京商业科技周上,北京的近百家商家联合对外发出了节能降耗倡议书。而市商务局也明确表示,将制止目前零售商业企业普遍使用塑料包装过多过滥现象的蔓延,推广纸质包装、布质包装,从根本上杜绝白色污染。
        多年来,无论是商场、超市还是菜场,塑料袋几乎是惟一的携带物。于是,用完的塑料袋就成了常见的垃圾。但这种垃圾无法回收、难以降解,许多没有条件的地方都是一埋了之。有关资料显示,全国仅每天买菜要用掉10亿只塑料袋。
     “制止目前零售商业企业普遍使用塑料包装过多过滥现象的蔓延,推广纸质包装、布质包装,从根本上杜绝白色污染。”昨天,在科技周上,市商务局表示将着力解决白色污染问题。
 
-过客- 2007-08-17
  • 打赏
  • 举报
回复
格式如何处理,只取出全部中文似乎没什么意义,或者说就你给的这个例子,要求的结果是怎么样的

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧