知乎爬虫:爬取知乎某一问题下的所有回答(回答数小于800左右)
基本思路
将question id 进行遍历,存入文件,对问题进行过滤后爬取需要的回答
目前项目爬取的机制是将滚动条拉取到页面底端,然后一次性抓取所有的回答元素,但由于目前知乎的缓冲加载机制,当回答数量过多时(大概800左右),前面的回答信息就抓取不到了;
拟解决思路:边滚动边抓取(但不方便进行元素定位以避免重复抓取)
项目结构
│ config.py # 爬取链接及存储路径设置
│ README.md
│ requirements.txt
│ scanner.py # 获取有效的问题网址
| filter_links.py # 按照一定规则筛选问题
│ ZhihuSpider.py # 知乎爬虫主程序
│
├─Driver
│ chromedriver.exe # Chrome驱动
│ geckodriver.exe # gecko驱动
│
└─Results
result-2022-07-28-深度神经网络DNN是否模拟了人类大脑皮层结构.csv # 抓取结果样例
, 相关下载链接:
https://download.csdn.net/download/Mrrunsen/87365612?utm_source=bbsseo