关于截取字符串的问题

zhaowei273 2010-06-07 08:25:18
有一段文本,有一定的格式,就是文本里面包含有html标签!
现在要截取一定数量的字符,html标签不算在该数量以内!

尝试过把html标签过滤掉,但是之后文本就没有格式了,现在是想在截取字符之后,还要保持原来的格式,html还要完整!

各位有什么好的方法,还望不吝赐教!
...全文
155 14 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
14 条回复
切换为时间正序
请发表友善的回复…
发表回复
zhangyumei 2010-06-29
  • 打赏
  • 举报
回复
问题解决了吗?可以说说解决方法吗?
zhangyumei 2010-06-09
  • 打赏
  • 举报
回复
继续关注
KFCILIKEIT 2010-06-07
  • 打赏
  • 举报
回复
路过 学习
zhangyumei 2010-06-07
  • 打赏
  • 举报
回复
这个真不知道
zhaowei273 2010-06-07
  • 打赏
  • 举报
回复
有知道怎么实现的吗? 帮帮忙啦...
zhaowei273 2010-06-07
  • 打赏
  • 举报
回复
[Quote=引用 7 楼 alianghao 的回复:]
先格式掉html./// <summary>

/// 去除HTML标记

/// </summary>

/// <param name="NoHTML">包括HTML的源码 </param>

/// <returns>已经去除后的文字</returns>

public static string NoHTML(string Htmlstring)
……
[/Quote]

这样之后就没有任何格式了,我是想截取后的字符串还能保持原来的格式...
zhaowei273 2010-06-07
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 holyplace 的回复:]
不是很清楚你要什么样的效果,你直接把<html>的长度计算在内截取不行么?
[/Quote]

直接把<html>的长度计算在内的话,截取之后可能会有不完整的html标签,如<p>,可能会出现<p ,
alianghao 2010-06-07
  • 打赏
  • 举报
回复
先格式掉html./// <summary>

/// 去除HTML标记

/// </summary>

/// <param name="NoHTML">包括HTML的源码 </param>

/// <returns>已经去除后的文字</returns>

public static string NoHTML(string Htmlstring)
{

//删除脚本

Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>", "", RegexOptions.IgnoreCase);

//删除HTML

Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"([\r\n])[\s]+", "", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase);



Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "\"", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", " ", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "\xa1", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "\xa2", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "\xa3", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "\xa9", RegexOptions.IgnoreCase);

Htmlstring = Regex.Replace(Htmlstring, @"&#(\d+);", "", RegexOptions.IgnoreCase);



Htmlstring.Replace("<", "");

Htmlstring.Replace(">", "");

Htmlstring.Replace("\r\n", "");

Htmlstring = HttpContext.Current.Server.HtmlEncode(Htmlstring).Trim();



return Htmlstring;

}
zhaowei273 2010-06-07
  • 打赏
  • 举报
回复
比如说这样的一段html文本

<p class="f_center"><img alt="我国957万考生今日将参加高考" src="http://img3.cache.netease.com/catchimg/20100607/80SNREJ5_0.jpg" /> </p>
<p>6月6日,江西省德兴市铜矿中学高三学生开心赴考。6月7日是2010年全国统一高考的前一天,德兴市铜矿中学200多名考生乘坐学校考生专用车,前往德兴市高考点参加今年的高考。</p>


想得到这样的效果

<p class="f_center"><img alt="我国957万考生今日将参加高考" src="http://img3.cache.netease.com/catchimg/20100607/80SNREJ5_0.jpg" /> </p>
<p>6月6日,江西省德兴市铜矿中学高三学生开心赴考...</p>



huangwenquan123 2010-06-07
  • 打赏
  • 举报
回复
截取的时候先把html的标记全部替换掉然后在进行截取
HolyPlace 2010-06-07
  • 打赏
  • 举报
回复
不是很清楚你要什么样的效果,你直接把<html>的长度计算在内截取不行么?
liaoyukun111 2010-06-07
  • 打赏
  • 举报
回复
正则表达式
dd__dd 2010-06-07
  • 打赏
  • 举报
回复
你还是把html内容贴出来,要得到什么也贴出来,让会正则的帮你写个正则表达式就行了,你这样问很难帮你解决问题
zhaowei273 2010-06-07
  • 打赏
  • 举报
回复
自己先顶一下...

62,244

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧