POI解析Word2007转html时,转换后的表格内容编码乱了

xiaosimm 2015-01-27 09:49:26
如题,具体代码如下:
实现类的代码:

转换后的html代码:


这个编码是将ASCII 转成了 unicode编码,所以出现了这样的样子,大神些帮忙解决一下呢!小弟感激不尽!
...全文
503 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
珂学家 swallaws 2018-12-27
  • 打赏
  • 举报
回复
根据1楼(#1)和3楼的分析可以得到 1楼的做法正确但因为手动替换字符串显得代码不够简洁 3楼的做法会替换掉我不需要替换的东西,比如我的字符串输出时候要用到小于号(<)和大于号(>)的结合,3楼做法会替换回来导致html无法显示 所以我中和1楼和3楼的做法 String regExp = "&#\\d*;"; Matcher m = Pattern.compile(regExp).matcher("是的"); StringBuffer sb = new StringBuffer(); while (m.find()) { String s = m.group(0); s = StringEscapeUtils.unescapeHtml3(s); m.appendReplacement(sb,s); } m.appendTail(sb); return m.toString();
蓝鹰_李辉 2017-08-26
  • 打赏
  • 举报
回复
strHtml = StringEscapeUtils.unescapeHtml3(strHtml); 完美解决这个问题,其中strHtml 表示word转html后的 String 字符串
qq_24053795 2015-12-24
  • 打赏
  • 举报
回复
我也碰到过 解决方法 String regExp = "&#\\d*;"; Matcher m = Pattern.compile(regExp).matcher("是的"); StringBuffer sb = new StringBuffer(); while (m.find()) { String s = m.group(0); s = s.replaceAll("(&#)|;", ""); char c = (char) Integer.parseInt(s); m.appendReplacement(sb, Character.toString(c)); } m.appendTail(sb); return m.toString();
qq_24053795 2015-12-24
  • 打赏
  • 举报
回复
这是用java解决方式, js解决方法 var txt = '【题文】666666'; var divObj = document.createElement("div"); divObj.innerHTML = txt; alert(divObj.innerHTML);

81,092

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧