抓取Cnki网页的问题

yingxinghuan 2008-09-19 02:59:11

rt
http://ckrd.cnki.net/grid20/Navi/catalog.aspx?NaviID=2000&Field=%E4%B8%93%E9%A2%98%E5%AD%90%E6%A0%8F%E7%9B%AE%E4%BB%A3%E7%A0%81&Value=A006_1%3f&NaviLink=%E7%90%86%E5%B7%A5A(%E6%95%B0%E5%AD%A6%E7%89%A9%E7%90%86%E5%8A%9B%E5%AD%A6%E5%A4%A9%E5%9C%B0%E7%94%9F)-%2fgrid20%2fNavi%2fMultiNavi.aspx%3fNaviID%3d2000%26Grade%3d2%26Field%3dSYS_FLD_SYS_CODE%26Value%3d0001%3f|%E7%94%9F%E7%89%A9%E5%AD%A6+%3E+%E7%94%9F%E7%89%A9%E7%A7%91%E5%AD%A6%E6%80%BB%E8%AE%BA 从上一个网页进去想抓取第二个页的内容链接如下

http://ckrd.cnki.net/grid20/detail.aspx?QueryID=54&CurRec=2
用浏览器能成功访问，但是用程序显示。
alert('您还没有登录或登录后长时间没有操作，请您重新登录后再进行操作！');
目标页的链接用其他另外的浏览器（新程序）打开也会出现如此结果。

可以看到目标页，的url很短，具体网站是怎么弄的？
我试过设置cookie了，并没有成功。（有点怀疑是cookie的设置没对）但是抓包显示的请求是有cookie的。
也与Referer 无关。请高手指点。

...全文

100 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

liaoyi_ipanel 2008-09-23

打赏
举报

## 开发环境： Pycharm + Python3.6 + Django2.0 + mysql数据库，redis数据库毕业设计-中国知网（cnki）爬虫及数据可视化，采用Django和Celery将爬虫内置在网站内，展示实时爬取的数据,数据结果通过Highcharts图表展示！其中数据的爬取是通过python调用selenium驱动Chrome浏览器实现网页内容的抓取！启动爬虫celery进程：python manage.py celery worker 注意：celery框架里面有个方法和python3.7的关键字冲突，所以用python3.6吧！还需要执行pip install lxml==4.5.2 解决html文档结构分析依赖的包

开发环境： Pycharm + Python3.6 + Django2.0 + mysql数据库，redis数据库毕业设计-中国知网（cnki）爬虫及数据可视化，采用Django和Celery将爬虫内置在网站内，展示实时爬取的数据,数据结果通过Highcharts图表展示！其中数据的爬取是通过python调用selenium驱动Chrome浏览器实现网页内容的抓取！启动爬虫celery进程：python manage.py celery worker 注意：celery框架里面有个方法和python3.7的关键字冲突，所以用python3.6吧！还需要执行pip install lxml==4.5.2 解决html文档结构分析依赖的包

爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据，如文本、图片、链接等。数据存储：爬虫将提取的数据存储到数据库、文件或其他存储介质中，以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施，如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。爬虫在各个领域都有广泛的应用，包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而，使用爬虫需要遵守法律和伦理规范，尊重网站的使用政策，并确保对被访问网站的服务器负责。

毕业设计，基于Python+Django+MySql开发的知网爬虫及数据可视化分析，内含Python完整源代码，数据库脚本 Python中国知网（cnki）爬虫及数据可视化分析设计毕业源码案例设计开发环境： Pycharm + Python3.6 + Django2.0 + mysql数据库，redis数据库毕业设计-中国知网（cnki）爬虫及数据可视化，采用Django和Celery将爬虫内置在网站内，展示实时爬取的数据,数据结果通过Highcharts图表展示！其中数据的爬取是通过python调用selenium驱动Chrome浏览器实现网页内容的抓取！启动爬虫celery进程：python manage.py celery worker 注意：celery框架里面有个方法和python3.7的关键字冲突，所以用python3.6吧！还需要执行pip install lxml==4.5.2 解决html文档结构分析依赖的包

【资源说明】该项目是个人毕设项目源码，评审分达到94分，都经过严格调试，确保可以运行！放心下载使用。该项目资源主要针对计算机、自动化等相关专业的学生或从业者下载使用，也可作为期末课程设计、课程大作业、毕业设计等。具有较高的学习借鉴价值！基础能力强的可以在此基础上修改调整，以实现类似其他功能。 ## 开发环境： Pycharm + Python3.6 + Django2.0 + mysql数据库，redis数据库毕业设计-中国知网（cnki）爬虫及数据可视化，采用Django和Celery将爬虫内置在网站内，展示实时爬取的数据,数据结果通过Highcharts图表展示！其中数据的爬取是通过python调用selenium驱动Chrome浏览器实现网页内容的抓取！启动爬虫celery进程：python manage.py celery worker 注意：celery框架里面有个方法和python3.7的关键字冲突，所以用python3.6吧！还需要执行pip install lxml==4.5.2 解决html文档结构分析依赖的包

Java SE

62,614

社区成员

307,328

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章