求网络爬虫设计思路

statichu2 2012-06-28 11:17:15

1.有一些信息的内容爬取是需要在需要通过ajax请求来获取的，图片集中的图片也是通过js数组、json数组来存放的，某些信息的分页链接是通过js变量计算来获得或者通过数组等获取URL地址。对于这些情况应该如何处理？
2.现在我的爬虫项目中只能提取存放在<img>标签中的图片信息,如何提取存放在其他地方的图片,比如新浪图片集中将图片存放在<dd>标签中,第一个<dd>是大图,第二个<dd>是中图,第三个是小的,我们怎样才能在多个<dd>标签中提取所需要的过滤掉不想要的图片信息? js中的图片又该如何提取?
3.针对上面的问题是否需要给用户提供接口使用户可以自由定义自己想要的抓取策略？如果提供接口应该以哪种方式提供接口的问题？接口的规范应该如何把握？
项目用的是httpclient + jsoup，各位有没有什么好的思路交流一下

...全文

242 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

statichu2 2012-06-29

打赏
举报

回复

没人弄过吗？

本文介绍了网络爬虫的基本概念、工作流程和分类，并以Java为基础，讲解了如何实现一个简单的网络爬虫。重点探讨了webmagic框架的使用，包括jar包下载、页面数据抽取和实体类注解等，还提到了Jsoup库在HTML解析中的作用。通过实例展示了XPath的语法应用，帮助读者理解网络爬虫的实现细节。

本文介绍了Python多线程网络爬虫工具，阐述了网络爬虫概念及重要性，讲解了该工具的核心功能、设计思路，介绍了requests、BeautifulSoup等核心库的使用，解析了工具组件。同时，说明了爬虫使用注意事项，还分享了进阶技巧、案例及高级技术应用，确保数据采集合法合规。

本文详细阐述了网络爬虫的基本实现思路，包括使用队列和生产者消费者模式来管理Url，以及如何通过多线程提高抓取效率。同时，文章介绍了URL查重技术，如使用布隆过滤器来避免重复抓取同一页面。最后，讨论了优化策略，如多队列分发和分布式架构的应用。

本文探讨了网络爬虫的设计与应用，包括URL管理、数据解析、反爬虫策略及模拟器技术等内容，并分享了作者在爬虫领域的经验和心得。

本文介绍了网络爬虫，涵盖数据来源、定义、用途等。阐述了爬虫抓取网页数据的思路，说明了选择Python做爬虫的原因，区分了通用爬虫与聚焦爬虫。还介绍了开发者工具，详细讲解了requests模块发送请求及response响应对象的使用方法。

81,111

社区成员

341,723

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章