C#使用正则替换冗余的html标签

ang18 2013-11-21 01:39:56
今需要处理编辑器内容中的html冗余标签;
如标签中内容为空白或 一类的标签,需要清除掉,
例:<p> </p>、<p>  </p>、<p></p>等都属于冗余标签,需要清理掉,当然,p也可以是div、span之类的标签,求C#使用正则处理方法,或有其他方法也可以提出来,thx !
...全文
219 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
u_2412258581 2013-11-22
  • 打赏
  • 举报
回复
换行就往里加\r\n,
q107770540 2013-11-21
  • 打赏
  • 举报
回复
/// <summary>
    /// 去掉html标记
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    protected static string ConvertGettext(string str)
    {
        Regex regex = new Regex(@"<(\w+)>[ \r\n\s\t]*?</\1>", RegexOptions.IgnoreCase);
  
        return regex.Replace(str, "").Replace(" ", "").Replace("\n", "").Replace("\r", "");
    }
夜轻风 2013-11-21
  • 打赏
  • 举报
回复
            string str = "<div> <p>        </p>、<p>  </p>、<p></p></div><div><span> <a>  </a>  </span></div><div>11111111</div>";
            Regex reg = new Regex(@"<(?<bq>[^>]+)>( |\s)*</\k'bq'>");

            MatchCollection mc = reg.Matches(str);

            while (mc.Count > 0)
            {
                foreach (Match m in mc)
                {
                    str = str.Replace(m.Value, "");
                }
                mc = reg.Matches(str);
            }
ang18 2013-11-21
  • 打赏
  • 举报
回复
引用 5 楼 q107770540 的回复:
/// <summary>
    /// 去掉html标记
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    protected static string ConvertGettext(string str)
    {
        Regex regex = new Regex(@"<[ \r\n\s\t]*?>", RegexOptions.IgnoreCase);
 
        return regex.Replace(str, "").Replace(" ", "").Replace("\n", "").Replace("\r", "");
    }
不成,比如像二楼的内容:<div> <p> </p>、<p>  </p>、<p></p></div><div><span> <a> </a> </span></div><div>11111111</div>, 你这个处理后变成:<div> </p>、</p>、</p></div><div><span> <a> </a> </span></div><div>11111111</div>; 没有成对清除冗余标签,冗余a标签亦没去除
q107770540 2013-11-21
  • 打赏
  • 举报
回复
/// <summary>
    /// 去掉html标记
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    protected static string ConvertGettext(string str)
    {
        Regex regex = new Regex(@"<[ \r\n\s\t]*?>", RegexOptions.IgnoreCase);
 
        return regex.Replace(str, "").Replace(" ", "").Replace("\n", "").Replace("\r", "");
    }
c02645 2013-11-21
  • 打赏
  • 举报
回复
如果要内含换行就往里加\r\n,要替换\t什么的都往里加 <[^/>]+>( |\ \;|\r\n)*</[^>]+>
ang18 2013-11-21
  • 打赏
  • 举报
回复
引用 1 楼 q107770540 的回复:
/// <summary>
    /// 去掉html标记
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    protected static string ConvertGettext(string str)
    {
        Regex regex = new Regex(@"\<(.*?)\>", RegexOptions.IgnoreCase);

        return regex.Replace(str, "").Replace(" ", "").Replace("\n", "").Replace("\r", "");
    }

帅哥,是去掉不含实际内容的冗余html标签(标签内容只有空白字符),你这个把所有的标签都去了哈,而且多出很多\t,能再改下否,thx
c02645 2013-11-21
  • 打赏
  • 举报
回复


    protected string ConvertGettext(string str)
    {
        Regex regex = new Regex(@"<[^/>]+>( |\ \;)*</[^>]+>");
        while (true)//循环替换,防止元素嵌套
        {
            str = regex.Replace(str, "");
            if (!regex.IsMatch(str))
                break;
        }
        return str;
    }
ConvertGettext("<div> <p>        </p>、<p>  </p>、<p></p></div><div><span> <a>  </a>  </span></div><div>11111111</div>");
q107770540 2013-11-21
  • 打赏
  • 举报
回复
/// <summary>
    /// 去掉html标记
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    protected static string ConvertGettext(string str)
    {
        Regex regex = new Regex(@"\<(.*?)\>", RegexOptions.IgnoreCase);

        return regex.Replace(str, "").Replace(" ", "").Replace("\n", "").Replace("\r", "");
    }

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧