如何提取网页中想要的信息并保存到text文件中

jyf823 2011-04-11 10:24:21

如题，如何提取网页中想要的信息并保存到text文件中！

...全文

189 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

提取的话，用正则过滤。

Jeelon 2011-04-11

把网页中想要显示的内容转发（或者提交）给一个servlet 控制器在控制器里面通过IO 然后写到text中去

wklken 2011-04-11

[Quote=引用 3 楼 ylz2007 的回复:]
提取的话，用正则过滤。
[/Quote]

首先根据url拿到目标页面的文本，然后正则过滤出需要的，以及该页面内的所有链接
对获得的链接与目前拥有的链接比对，去掉访问过的，得到还未进行爬取的进行再次处理

这样层层向外

jyf823 2011-04-11

[Quote=引用 2 楼 javaxiaochouyu 的回复:]

把网页中想要显示的内容转发（或者提交）给一个servlet 控制器在控制器里面通过IO 然后写到text中去
[/Quote]

提取网页中想要的内容，这个怎么弄呢··初研究爬虫，所以不太了解，请各位大虾指点

81,094

社区成员

341,711

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

加载中

社区公告

暂无公告

试试用AI创作助手写篇文章吧