scrapy爬虫的问题

SeaHome81 2018-08-22 04:41:24
本人Python新手,应需要刚开始学习,且时间有限,所以来不及系统性学习,可能提的问题比较肤浅,望各位高手勿嘲。
目前本人的需求是:用scrapy模块写的爬虫定时爬取论坛帖子列表及链接,然后和数据库里的进行比较,如果是之前没爬的帖子,就再爬取该帖子的内容(楼主层内容),如果是数据库已有的帖子,则丢弃。
碰到的问题是:编写的spider爬到帖子链接后,存入item,然后通过pipeline进行过滤,这几步都能完成;就是接下去过滤后需要再进一步爬取帖子内容时,如何编写就卡住了,不知道该在哪里处理(新写个专门爬内容的spider和对应的pipeline,在pipeline里调用这个spider,在新的pipeline里再处理爬到的内容?),望各位高手指点,谢谢!
...全文
212 2 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
wudamen 2018-08-23
  • 打赏
  • 举报
回复
增量爬虫?或许你存数据到数据库之前可以顺便把论坛的标识(例如标题、时间、帖子部分内容)生成一个md5或者sha1值,然后下次爬取时只要拿标识进行对比,不一样则内容不一致,抓取即可,否则不抓取
SeaHome81 2018-08-23
  • 打赏
  • 举报
回复
楼上的理解错我的意思了,我的意思是,先在版块页面爬取帖子链接,接着实现增量去重,然后对去重后的链接进行再次爬取,爬取链接的页面内容

37,743

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • WuKongSecurity@BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧