关于截取字符串的问题

zhaowei273 2010-06-07 08:25:18

有一段文本，有一定的格式，就是文本里面包含有html标签！
现在要截取一定数量的字符，html标签不算在该数量以内！

尝试过把html标签过滤掉，但是之后文本就没有格式了，现在是想在截取字符之后，还要保持原来的格式，html还要完整！

各位有什么好的方法，还望不吝赐教！

...全文

215 14 打赏收藏转发到动态举报

写回复

用AI写文章

14 条回复

切换为时间正序

请发表友善的回复…

发表回复

zhangyumei 2010-06-29

打赏
举报

问题解决了吗？可以说说解决方法吗？

zhangyumei 2010-06-09

打赏
举报

继续关注

KFCILIKEIT 2010-06-07

打赏
举报

路过学习

zhangyumei 2010-06-07

打赏
举报

这个真不知道

zhaowei273 2010-06-07

打赏
举报

有知道怎么实现的吗？帮帮忙啦...

zhaowei273 2010-06-07

打赏
举报

[Quote=引用 7 楼 alianghao 的回复:]
先格式掉html./// <summary>

/// 去除HTML标记

/// </summary>

/// <param name="NoHTML">包括HTML的源码 </param>

/// <returns>已经去除后的文字</returns>

public static string NoHTML(string Htmlstring)
……
[/Quote]

这样之后就没有任何格式了，我是想截取后的字符串还能保持原来的格式...

zhaowei273 2010-06-07

打赏
举报

[Quote=引用 4 楼 holyplace 的回复:]
不是很清楚你要什么样的效果，你直接把<html>的长度计算在内截取不行么？
[/Quote]

直接把<html>的长度计算在内的话，截取之后可能会有不完整的html标签，如<p>，可能会出现<p ,

alianghao 2010-06-07

打赏
举报

先格式掉html./// <summary>

/// 去除HTML标记

/// </summary>

/// <param name="NoHTML">包括HTML的源码 </param>

/// <returns>已经去除后的文字</returns>

public static string NoHTML(string Htmlstring)
{

//删除脚本

Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>", "", RegexOptions.IgnoreCase);

//删除HTML

Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "\"", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", " ", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "\xa1", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "\xa2", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "\xa3", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "\xa9", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);", "", RegexOptions.IgnoreCase);

Htmlstring.Replace("<", "");

Htmlstring.Replace(">", "");

Htmlstring.Replace("\r\n", "");

Htmlstring = HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();

return Htmlstring;

}

zhaowei273 2010-06-07

打赏
举报

比如说这样的一段html文本



<p class="f_center"><img alt="我国957万考生今日将参加高考" src="http://img3.cache.netease.com/catchimg/20100607/80SNREJ5_0.jpg" /> </p>

<p>6月6日，江西省德兴市铜矿中学高三学生开心赴考。6月7日是2010年全国统一高考的前一天，德兴市铜矿中学200多名考生乘坐学校考生专用车，前往德兴市高考点参加今年的高考。</p>

想得到这样的效果



<p class="f_center"><img alt="我国957万考生今日将参加高考" src="http://img3.cache.netease.com/catchimg/20100607/80SNREJ5_0.jpg" /> </p>

<p>6月6日，江西省德兴市铜矿中学高三学生开心赴考...</p>