javaweb项目读取word文档目录 求解

111122121 2012-04-10 04:30:30
java读取word文档 利用的poi,但是当word中有目录时出现不想要的东西

代码
public static void main(String[] args) throws IOException{
FileInputStream in = new FileInputStream(new File("d:\\word.doc"));
POIFSFileSystem pofi = new POIFSFileSystem(in);
WordExtractor word = new WordExtractor(pofi);
String text = word.getText();
System.out.println(text);

}


运行结果

目 录
TOC \o "1-5" \h \z \u HYPERLINK \l "_Toc321838818" §1.1 啊啊啊啊 PAGEREF _Toc321838818 \h 1
HYPERLINK \l "_Toc321838819" §1.1.1 反反复复 PAGEREF _Toc321838819 \h 1


通用数据

啊啊啊啊
反反复复



原文


目 录
§1.1 啊啊啊啊...................1
§1.1.1 反反复复................ 1


通用数据

§1.1 啊啊啊啊
§1.1.1 反反复复

...全文
660 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
pzxsheng 2014-07-29
  • 打赏
  • 举报
回复
楼主问题解决了吗,解决方法是咋样的,谢谢。
boyu_song 2012-04-11
  • 打赏
  • 举报
回复
已经3.8了啊,我还用3.0的呢。。
3.8的可以解决目录问题?
111122121 2012-04-11
  • 打赏
  • 举报
回复
自己解决,貌似还没有见到过这类答案,只有一篇文章中提到了去除目录乱码,但是他所用的循环判断是不合理的,当文章正文中出现HYPERLINK \l "_Toc*的时候,会死循环的。
我的解决方式:升级poi jar包为3.8

81,092

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧