[quote=引用 1 楼 xpresslink 的回复:] 是的, 小数据量的爬虫只是雕虫小技。 实际上每个网页都不一样,基本上都要单独处理。 只有搜索引擎那个级别的爬虫才是真正有难度的技术。
是的, 小数据量的爬虫只是雕虫小技。 实际上每个网页都不一样,基本上都要单独处理。 只有搜索引擎那个级别的爬虫才是真正有难度的技术。
数据量小,逻辑简单的时候,自己写的爬虫程序当然工作看起来没什么; 如果是量大,逻辑复杂的时候,除非你水平比scrapy框架高,否则.....; scrapy框架绝对的神器,能大大减少爬虫的开发时间。 另外,我认为scrapy也非常灵活。 使用scrapy,你只需重心放在提取网页、编写中间件反爬就OK了,保存数据和配置不费什么力气,出队和去重几乎不需要费心。
TB级数据类型是什么样的? 从优酷爬200个电影和把百度贴吧爬下来是完全不同的思路。 scapy 是个成熟的框架, 是打包方案,底层是异步框架 twisted ,并发是最大优势,因为同时爬很多网页时,网络io阻塞问题就要考虑了。 直接上手的话自己写的代码可能会少一些,但是相对缺少灵活性,关键看你要爬什么。 后来由于有了基于协程的Python网络库gevent,可以直接把同步代码当成异步来执行非常方便了,所有也有很多人用 gevent+requests 的方案。 现在Python3.4以后有了 asyncio 并且在python3.5 里加了 async/await关键字以后,用协程可能是将来的趋势了。 其实爬虫最大的工作量都是花费精力在对付反爬上面。
37,719
社区成员
34,239
社区内容
加载中
试试用AI创作助手写篇文章吧