抓取Cnki网页的问题

yingxinghuan 2008-09-19 02:59:11
rt
http://ckrd.cnki.net/grid20/Navi/catalog.aspx?NaviID=2000&Field=%E4%B8%93%E9%A2%98%E5%AD%90%E6%A0%8F%E7%9B%AE%E4%BB%A3%E7%A0%81&Value=A006_1%3f&NaviLink=%E7%90%86%E5%B7%A5A(%E6%95%B0%E5%AD%A6%E7%89%A9%E7%90%86%E5%8A%9B%E5%AD%A6%E5%A4%A9%E5%9C%B0%E7%94%9F)-%2fgrid20%2fNavi%2fMultiNavi.aspx%3fNaviID%3d2000%26Grade%3d2%26Field%3dSYS_FLD_SYS_CODE%26Value%3d0001%3f|%E7%94%9F%E7%89%A9%E5%AD%A6+%3E+%E7%94%9F%E7%89%A9%E7%A7%91%E5%AD%A6%E6%80%BB%E8%AE%BA 从上一个网页进去想抓取 第二个页的内容 链接如下

http://ckrd.cnki.net/grid20/detail.aspx?QueryID=54&CurRec=2
用浏览器能成功访问,但是用程序 显示。
alert('您还没有登录或登录后长时间没有操作,请您重新登录后再进行操作!');
目标页的链接用其他另外的浏览器(新程序)打开也会出现如此结果。

可以看到目标页,的url很短,具体网站是怎么弄的?
我试过设置cookie了,并没有成功。(有点怀疑是cookie的设置没对)但是抓包显示的请求是有cookie的。
也与Referer 无关。请高手指点。
...全文
100 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
liaoyi_ipanel 2008-09-23
  • 打赏
  • 举报
回复
up
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧