scrapy爬虫的问题

SeaHome81 2018-08-22 04:41:24

本人Python新手，应需要刚开始学习，且时间有限，所以来不及系统性学习，可能提的问题比较肤浅，望各位高手勿嘲。
目前本人的需求是：用scrapy模块写的爬虫定时爬取论坛帖子列表及链接，然后和数据库里的进行比较，如果是之前没爬的帖子，就再爬取该帖子的内容（楼主层内容），如果是数据库已有的帖子，则丢弃。
碰到的问题是：编写的spider爬到帖子链接后，存入item，然后通过pipeline进行过滤，这几步都能完成；就是接下去过滤后需要再进一步爬取帖子内容时，如何编写就卡住了，不知道该在哪里处理（新写个专门爬内容的spider和对应的pipeline，在pipeline里调用这个spider，在新的pipeline里再处理爬到的内容？），望各位高手指点，谢谢！

...全文

256 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

wudamen 2018-08-23

打赏
举报

回复

增量爬虫？或许你存数据到数据库之前可以顺便把论坛的标识(例如标题、时间、帖子部分内容)生成一个md5或者sha1值，然后下次爬取时只要拿标识进行对比，不一样则内容不一致，抓取即可，否则不抓取

SeaHome81 2018-08-23

打赏
举报

回复

楼上的理解错我的意思了，我的意思是，先在版块页面爬取帖子链接，接着实现增量去重，然后对去重后的链接进行再次爬取，爬取链接的页面内容

下载代码方式：https://pan.quark.cn/s/ddb1b09a40f6 EV2400_Support_Components_20110524; 在EV2300设备完成驱动程序安装之后，应继续安装相关的支持性软件包；

awdubaowudboauwbdoauwd

数据分析可视化实战项目

内容概要：本文围绕城市场景下无人机三维路径规划中的导航变量多目标优化问题，提出了一种改进的多目标粒子群优化算法（NMOPSO），旨在应对高维、多约束条件下路径规划的复杂性。研究在Matlab平台上实现了算法仿真，通过构建精细化的城市三维环境模型，综合考虑路径长度、飞行安全性、能耗等多个优化目标，有效提升了无人机在复杂城市环境中执行任务时的路径规划效率与可靠性。文中系统阐述了NMOPSO算法的设计原理、实现流程及关键参数配置，并通过大量对比实验验证了该算法在收敛速度、解集多样性和Pareto前沿质量方面相较于传统多目标优化算法的显著优势；适合人群：具备一定优化算法理论基础和Matlab编程能力的研究生、科研人员及从事无人机路径规划、智能优化算法研发的工程技术人员；使用场景及目标：①应用于城市环境下的无人机物流配送、电力巡检、应急救援等实际任务中的高效路径规划；②为高维多目标优化问题的研究与先进智能算法的改进提供高质量的参考案例，推动智能优化技术在无人系统自主决策领域的深入应用；阅读建议：建议读者结合提供的Matlab代码进行动手实践，重点研读目标函数的数学建模、环境约束的处理机制以及算法性能评价指标的设计，以深入理解NMOPSO算法的核心创新点与工程实现细节。

汉字与拼音转写工具，把汉字转写为字母标调的汉语拼音

37,738

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章