求网络爬虫设计思路

statichu2 2012-06-28 11:17:15
1.有一些信息的内容爬取是需要在需要通过ajax请求来获取的,图片集中的图片也是通过js数组、json数组来存放的,某些信息的分页链接是通过js变量计算来获得或者通过数组等获取URL地址。对于这些情况应该如何处理?
2.现在我的爬虫项目中只能提取存放在<img>标签中的图片信息,如何提取存放在其他地方的图片,比如新浪图片集中将图片存放在<dd>标签中,第一个<dd>是大图,第二个<dd>是中图,第三个是小的,我们怎样才能在多个<dd>标签中提取所需要的过滤掉不想要的图片信息? js中的图片又该如何提取?
3.针对上面的问题是否需要给用户提供接口使用户可以自由定义自己想要的抓取策略?如果提供接口应该以哪种方式提供接口的问题?接口的规范应该如何把握?
项目用的是httpclient + jsoup,各位有没有什么好的思路交流一下
...全文
152 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
statichu2 2012-06-29
  • 打赏
  • 举报
回复
没人弄过吗?

81,092

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧