求网络爬虫设计思路
1.有一些信息的内容爬取是需要在需要通过ajax请求来获取的,图片集中的图片也是通过js数组、json数组来存放的,某些信息的分页链接是通过js变量计算来获得或者通过数组等获取URL地址。对于这些情况应该如何处理?
2.现在我的爬虫项目中只能提取存放在<img>标签中的图片信息,如何提取存放在其他地方的图片,比如新浪图片集中将图片存放在<dd>标签中,第一个<dd>是大图,第二个<dd>是中图,第三个是小的,我们怎样才能在多个<dd>标签中提取所需要的过滤掉不想要的图片信息? js中的图片又该如何提取?
3.针对上面的问题是否需要给用户提供接口使用户可以自由定义自己想要的抓取策略?如果提供接口应该以哪种方式提供接口的问题?接口的规范应该如何把握?
项目用的是httpclient + jsoup,各位有没有什么好的思路交流一下