scrapy爬虫的问题

SeaHome81 工程师  2018-08-22 04:41:24
本人Python新手,应需要刚开始学习,且时间有限,所以来不及系统性学习,可能提的问题比较肤浅,望各位高手勿嘲。
目前本人的需求是:用scrapy模块写的爬虫定时爬取论坛帖子列表及链接,然后和数据库里的进行比较,如果是之前没爬的帖子,就再爬取该帖子的内容(楼主层内容),如果是数据库已有的帖子,则丢弃。
碰到的问题是:编写的spider爬到帖子链接后,存入item,然后通过pipeline进行过滤,这几步都能完成;就是接下去过滤后需要再进一步爬取帖子内容时,如何编写就卡住了,不知道该在哪里处理(新写个专门爬内容的spider和对应的pipeline,在pipeline里调用这个spider,在新的pipeline里再处理爬到的内容?),望各位高手指点,谢谢!
...全文
120 点赞 收藏 2
写回复
2 条回复
wudamen 2018年08月23日
增量爬虫?或许你存数据到数据库之前可以顺便把论坛的标识(例如标题、时间、帖子部分内容)生成一个md5或者sha1值,然后下次爬取时只要拿标识进行对比,不一样则内容不一致,抓取即可,否则不抓取
回复 点赞
SeaHome81 2018年08月23日
楼上的理解错我的意思了,我的意思是,先在版块页面爬取帖子链接,接着实现增量去重,然后对去重后的链接进行再次爬取,爬取链接的页面内容
回复 点赞
发动态
发帖子
脚本语言(Perl/Python)
创建于2007-08-27

1.5w+

社区成员

3.3w+

社区内容

其他开发语言 脚本语言(Perl ,Python)
社区公告
暂无公告