如何提取HTML中的内容

laji97 2006-07-20 09:15:11
现有一段HTML代码流
<HTML>
<HEAD>代码示例</HEAD>
<BODY>
<A href="www.163.com">示例代码</A>
</BODY>
</HTML>
现要提取其中的内容"示例代码"
请问该如何实现 …
...全文
433 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
laji97 2006-07-20
  • 打赏
  • 举报
回复
很好谢谢了
机器人 2006-07-20
  • 打赏
  • 举报
回复
把HTML内容当作XML String

用XmlDocument.LoadXml加载

然后用 XPath: //A 全部取出超链接的 XmlNodeList

  • 打赏
  • 举报
回复
//替换掉html字符,只显示文字信息。
public string replaceHtmlCode (string Htmlstring)
{
Htmlstring = Htmlstring.Replace( "<br/>","\n");
Htmlstring = Htmlstring.Replace( "<br/>","\r\n");
Htmlstring =Htmlstring.Replace("<","<");
Htmlstring = Htmlstring.Replace(">",">");
Htmlstring = Htmlstring.Replace(""","\"") ;
Htmlstring =Htmlstring.Replace ("nbsp;"," ");
Htmlstring =Htmlstring.Replace ("&","");
Htmlstring = Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase);
//删除HTML
Htmlstring = Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"([\r\n])[\s]+","",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(quot|#34);","\"",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(nbsp|#160);"," ",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(iexcl|#161);","\xa1",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(cent|#162);","\xa2",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(pound|#163);","\xa3",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(copy|#169);","\xa9",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&#(\d+);","",RegexOptions.IgnoreCase);

Htmlstring.Replace("<","");
Htmlstring.Replace(">","");
Htmlstring.Replace("\r\n","");

//对字符串长度进行判断。然后依据长短进行截取
if (Htmlstring.Length < 100)
{//如果长度小于40个汉字
return Htmlstring;
}
else
{
Htmlstring = Htmlstring.Substring(0,100) + "...";
return Htmlstring;
}
}


-----------------------------
调用显示
<asp:DataList id="dlist_newmovement" runat="server" Width="100%">
<ItemTemplate>
<%# replaceHtmlCode(DataBinder.Eval(Container,"DataItem.News_Content").ToString())%>
</ItemTemplate>
</asp:DataList>


cqwang 2006-07-20
  • 打赏
  • 举报
回复
用正则式效率高\s*\<a(.+)\>(.+)\<\/a\>\s*,大概是这样
dreamwaters 2006-07-20
  • 打赏
  • 举报
回复
再改一下
function GetHrefText()//得到<A></a>之间的内容
{
var slinks="";
for(var i=0;i<document.links.length;i++)
{
slinks+=document.links(i).innerHTML+",";
}
return slinks;
}
dreamwaters 2006-07-20
  • 打赏
  • 举报
回复
脚本的
vfan2010 2006-07-20
  • 打赏
  • 举报
回复
给它加个ID吧。
再document.getElementById('id').innerText;
dreamwaters 2006-07-20
  • 打赏
  • 举报
回复
function GetHrefText()//得到<A></a>之间的内容
{
var links="";
for(var i=0;i<document.links.length;i++)
{
links+=document.links(i).innerHTML+",";
}
return links;
}
hzw66 2006-07-20
  • 打赏
  • 举报
回复
用正则表达式
laji97 2006-07-20
  • 打赏
  • 举报
回复
脚本和代码 都可以 只要能实现 谢谢了 正烦恼中呢`
dreamwaters 2006-07-20
  • 打赏
  • 举报
回复
用脚本还是c#代码

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧