如何提取网页中想要的信息并保存到text文件中

jyf823 2011-04-11 10:24:21
如题,如何提取网页中想要的信息并保存到text文件中!
...全文
189 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
提取的话,用正则过滤。
Jeelon 2011-04-11
  • 打赏
  • 举报
回复
把网页中想要显示的内容 转发(或者提交)给一个servlet 控制器 在控制器里面 通过IO 然后写到text中去
wklken 2011-04-11
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 ylz2007 的回复:]
提取的话,用正则过滤。
[/Quote]

首先根据url拿到目标页面的文本,然后正则过滤出需要的,以及该页面内的所有链接
对获得的链接与目前拥有的链接比对,去掉访问过的,得到还未进行爬取的进行再次处理

这样层层向外
jyf823 2011-04-11
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 javaxiaochouyu 的回复:]

把网页中想要显示的内容 转发(或者提交)给一个servlet 控制器 在控制器里面 通过IO 然后写到text中去
[/Quote]

提取网页中想要的内容,这个怎么弄呢··初研究爬虫,所以不太了解,请各位大虾指点

81,094

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧