求网页正文信息提取思路

mengliu2010 2012-03-09 10:54:59
想做一个软件,可以较为精确地提取出正文信息,但是要除去一些噪声信息
...全文
52 4 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
mengliu2010 2012-03-11
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 woxinfeixian93 的回复:]
我想到的只有readline,转成xml形式,接着就dom4j方式去读取你想要的信息
(或正则进取信息)
[/Quote]
这样噪声信息不少的
mengliu2010 2012-03-11
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 zzt369880281 的回复:]
我也有兴趣,加我QQ吧,我的用户名就是QQ
[/Quote]
加了
love_love 2012-03-10
  • 打赏
  • 举报
回复
我想到的只有readline,转成xml形式,接着就dom4j方式去读取你想要的信息
(或正则进取信息)
zzt369880281 2012-03-10
  • 打赏
  • 举报
回复
我也有兴趣,加我QQ吧,我的用户名就是QQ

62,634

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧