求网页正文信息提取思路

mengliu2010 2012-03-09 10:54:59

想做一个软件，可以较为精确地提取出正文信息，但是要除去一些噪声信息

...全文

102 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

mengliu2010 2012-03-11

[Quote=引用 2 楼 woxinfeixian93 的回复:]
我想到的只有readline,转成xml形式,接着就dom4j方式去读取你想要的信息
(或正则进取信息)
[/Quote]
这样噪声信息不少的

mengliu2010 2012-03-11

[Quote=引用 1 楼 zzt369880281 的回复:]
我也有兴趣，加我ＱＱ吧，我的用户名就是ＱＱ
[/Quote]
加了

love_love 2012-03-10

我想到的只有readline,转成xml形式,接着就dom4j方式去读取你想要的信息
(或正则进取信息)

zzt369880281 2012-03-10

我也有兴趣，加我ＱＱ吧，我的用户名就是ＱＱ

62,622

社区成员

307,255

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

加载中

社区公告

暂无公告

试试用AI创作助手写篇文章吧