这2天遇到一个麻烦的事情,就是一个资讯系统的内容中有&#开头的html实体编码。
如果用HtmlDecode处理的话,能够正确显示汉字,但如此一来。将会导致<>等HTML标签被解释。
举例说明如下:
string content = "<font size=\"11\">二郎山<font/>";
该字符串如果直接输出到屏幕,可以正确显示 二郎山,但font标签也会被浏览器解释(这是我不愿意看到的),我想要的输出结果是:
<font size="11">二郎山</font>
即:汉字可以正确显示,而HTML标签被编码不会被浏览器解释。
于是乎在输出之前进行HTML编码处理,但编码后,字符串的内容会变成:
<font size="11">二郎山<font/>
输出到屏幕上<font size="11">二郎山</font>
标签是不会被解释了,但二郎山的郎字又无法显示了。
因为这个汉字“郎”本身就已经是html实体了,所以编码或者解码,她的处理方式就和其他html标签是一样的。我想输出郎字,就必须要解码,但解码后同样会导致<这些符号被解码。
普通的字符“郎”的unicode码是37070,不是63788。两者之间还是有差别。
我想问的是如何将这个HTML实体编码的汉字转换为普通汉字,这样我就可以用HtmlEncode来处理其他html标签了?