scrapy爬虫的问题
本人Python新手,应需要刚开始学习,且时间有限,所以来不及系统性学习,可能提的问题比较肤浅,望各位高手勿嘲。
目前本人的需求是:用scrapy模块写的爬虫定时爬取论坛帖子列表及链接,然后和数据库里的进行比较,如果是之前没爬的帖子,就再爬取该帖子的内容(楼主层内容),如果是数据库已有的帖子,则丢弃。
碰到的问题是:编写的spider爬到帖子链接后,存入item,然后通过pipeline进行过滤,这几步都能完成;就是接下去过滤后需要再进一步爬取帖子内容时,如何编写就卡住了,不知道该在哪里处理(新写个专门爬内容的spider和对应的pipeline,在pipeline里调用这个spider,在新的pipeline里再处理爬到的内容?),望各位高手指点,谢谢!