如何提取HTML中的内容

laji97 2006-07-20 09:15:11

现有一段HTML代码流
<HTML>
<HEAD>代码示例</HEAD>
<BODY>
<A href="www.163.com">示例代码</A>
</BODY>
</HTML>
现要提取其中的内容"示例代码"
请问该如何实现 …

...全文

433 11 打赏收藏转发到动态举报

写回复

用AI写文章

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

laji97 2006-07-20

打赏
举报

很好谢谢了

机器人 2006-07-20

打赏
举报

把HTML内容当作XML String

用XmlDocument.LoadXml加载

然后用 XPath: //A 全部取出超链接的 XmlNodeList

程序可以让尸体动起来 2006-07-20

打赏
举报

//替换掉html字符，只显示文字信息。
public string replaceHtmlCode (string Htmlstring)
{
Htmlstring = Htmlstring.Replace( "<br/>","\n");
Htmlstring = Htmlstring.Replace( "<br/>","\r\n");
Htmlstring =Htmlstring.Replace("<","<");
Htmlstring = Htmlstring.Replace(">",">");
Htmlstring = Htmlstring.Replace(""","\"") ;
Htmlstring =Htmlstring.Replace ("nbsp;"," ");
Htmlstring =Htmlstring.Replace ("&","");
Htmlstring = Regex.Replace(Htmlstring,@"<script[^>]*?>.*?</script>","",RegexOptions.IgnoreCase);
//删除HTML
Htmlstring = Regex.Replace(Htmlstring,@"<(.[^>]*)>","",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"([\r\n])[\s]+","",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"-->","",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"<!--.*","",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(quot|#34);","\"",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(amp|#38);","&",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(lt|#60);","<",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(gt|#62);",">",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(nbsp|#160);"," ",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(iexcl|#161);","\xa1",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(cent|#162);","\xa2",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(pound|#163);","\xa3",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&(copy|#169);","\xa9",RegexOptions.IgnoreCase);
Htmlstring = Regex.Replace(Htmlstring,@"&#(\d+);","",RegexOptions.IgnoreCase);

Htmlstring.Replace("<","");
Htmlstring.Replace(">","");
Htmlstring.Replace("\r\n","");

//对字符串长度进行判断。然后依据长短进行截取
if (Htmlstring.Length < 100)
{//如果长度小于40个汉字
return Htmlstring;
}
else
{
Htmlstring = Htmlstring.Substring(0,100) + "...";
return Htmlstring;
}
}

-----------------------------
调用显示
<asp:DataList id="dlist_newmovement" runat="server" Width="100%">
<ItemTemplate>
<%# replaceHtmlCode(DataBinder.Eval(Container,"DataItem.News_Content").ToString())%>
</ItemTemplate>
</asp:DataList>

cqwang 2006-07-20

打赏
举报

用正则式效率高\s*\<a(.+)\>(.+)\<\/a\>\s*，大概是这样

dreamwaters 2006-07-20

打赏
举报

再改一下
function GetHrefText()//得到<A></a>之间的内容
{
var slinks="";
for(var i=0;i<document.links.length;i++)
{
slinks+=document.links(i).innerHTML+",";
}
return slinks;
}

dreamwaters 2006-07-20

打赏
举报

脚本的

vfan2010 2006-07-20

打赏
举报

给它加个ID吧。
再document.getElementById('id').innerText;

dreamwaters 2006-07-20

打赏
举报

function GetHrefText()//得到<A></a>之间的内容
{
var links="";
for(var i=0;i<document.links.length;i++)
{
links+=document.links(i).innerHTML+",";
}
return links;
}

hzw66 2006-07-20