知乎爬虫:爬取知乎某一问题下的所有回答(回答数小于800左右) 下载

weixin_39820780 2023-01-21 08:30:16
知乎爬虫:爬取知乎某一问题下的所有回答(回答数小于800左右) 基本思路 将question id 进行遍历,存入文件,对问题进行过滤后爬取需要的回答 目前项目爬取的机制是将滚动条拉取到页面底端,然后一次性抓取所有的回答元素,但由于目前知乎的缓冲加载机制,当回答数量过多时(大概800左右),前面的回答信息就抓取不到了; 拟解决思路:边滚动边抓取(但不方便进行元素定位以避免重复抓取) 项目结构 │ config.py # 爬取链接及存储路径设置 │ README.md │ requirements.txt │ scanner.py # 获取有效的问题网址 | filter_links.py # 按照一定规则筛选问题 │ ZhihuSpider.py # 知乎爬虫主程序 │ ├─Driver │ chromedriver.exe # Chrome驱动 │ geckodriver.exe # gecko驱动 │ └─Results result-2022-07-28-深度神经网络DNN是否模拟了人类大脑皮层结构.csv # 抓取结果样例 , 相关下载链接:https://download.csdn.net/download/Mrrunsen/87365612?utm_source=bbsseo
...全文
2 回复 打赏 收藏 举报
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复
相关推荐
发帖
下载资源悬赏专区

1.1w+

社区成员

CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
帖子事件
创建了帖子
2023-01-21 08:30
社区公告
暂无公告