word转html如何清除冗余代码

hyzkui 2009-11-24 12:06:05
我有几万个从word转来的html文件,但这些html文件由doc的100多K变成了几M,几十M。

原来转为html时产生了大量的冗余代码,请问有什么方法可以清除这些垃圾。

需要程序代码。
...全文
534 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
楼主能将你的word转成html的代码发给我份嘛 我正在找呢!QQ:104517300
bq112972@126.com
hyzkui 2009-11-24
  • 打赏
  • 举报
回复
刚才没分了,现在又有了,可以加分的
hyzkui 2009-11-24
  • 打赏
  • 举报
回复
看错了,你那个就是c#代码,呵呵
hyzkui 2009-11-24
  • 打赏
  • 举报
回复
非常感谢,有没有c#的代码?
fonvey 2009-11-24
  • 打赏
  • 举报
回复
楼上强啊
winner2050 2009-11-24
  • 打赏
  • 举报
回复
/// <summary>
/// 清理Word生成的冗余HTML
/// </summary>
/// <param name="html"></param>
/// <returns></returns>
public static string CleanWordHtml(string html)
{
StringCollection sc = new StringCollection();
// get rid of unnecessary tag spans (comments and title)
sc.Add(@"<!--(\w|\W)+?-->");
sc.Add(@"<title>(\w|\W)+?</title>");
// Get rid of classes and styles
sc.Add(@"\s?class=\w+");
sc.Add(@"\s+style='[^']+'");
// Get rid of unnecessary tags
//sc.Add(@"<(meta|link|/?o:|/?style|/?div|/?st\d|/?head|/?html|body|/?body|/?span|!\[)[^>]*?>");
sc.Add(@"<(meta|link|/?o:|/?style|/?font|/?strong|/?st\d|/?head|/?html|body|/?body|/?span|!\[)[^>]*?>");
// Get rid of empty paragraph tags
sc.Add(@"(<[^>]+>)+ (</\w+>)+");
// remove bizarre v: element attached to <img> tag
sc.Add(@"\s+v:\w+=""[^""]+""");
// remove extra lines
sc.Add(@"(\n\r){2,}");
foreach (string s in sc)
{
html = Regex.Replace(html, s, "", RegexOptions.IgnoreCase);
}
return html;
}

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧