抓取页面数据，403错误，但是浏览器可以打开！

haa17 2011-12-09 12:20:16

抓取的网址： https://api.weibo.com/2/statuses/show.json?source=3675766002&id=3388249202707781

但是每次请求都是返回403错误。

上面的网址是新浪微博开放平台的，新浪不能成每次都返回403错误的。

请问各位大牛怎么回事？

...全文

1187 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

wiki14 2011-12-09

打赏
举报

回复

你确定是这个地址没错？
你确定是用GET方式过去没错？
你确定不需要head信息？

铜臂阿铁木 2011-12-09

打赏
举报

回复

感觉是个common的问题呢。

haa17 2011-12-09

打赏
举报

回复

有没有做过新浪微博开放平台的，给个支持。

铜臂阿铁木 2011-12-09

打赏
举报

回复

一般403就是没有权限访问，需要登录的过程。
WebClient或者HttpRequest需要有权限信息吧。
在我这打开你的那个url，也是Auth faild。

haa17 2011-12-09

打赏
举报

回复

请求方式是get

肖无疾 2011-12-09

打赏
举报

回复

都说了是开放平台，sdk也有得下载，自己看文档吧
http://open.weibo.com/wiki/%E6%8E%88%E6%9D%83%E6%9C%BA%E5%88%B6%E8%AF%B4%E6%98%8E

husunbei 2011-12-09

打赏
举报

回复

都是高手啊！！~~呵呵，我也是学编程的，但我不会，谁能教教我呗

haa17 2011-12-09

打赏
举报

回复

是的。没错。[Quote=引用 5 楼 wiki14 的回复:]

你确定是这个地址没错？
你确定是用GET方式过去没错？
你确定不需要head信息？
[/Quote]

不知道大家遇到过没有，我们使用诸如Fiddler、Charles进行抓包的时候是正常的，但是当我们将请求的Url链接拷贝到浏览器中进行请求的时候，就会403错误。403错误是我们网络请求中常见的【禁止访问】错误。如下所示，我们在Charles中是正常的，但是在浏览器中或者使用Postman进行访问时就会出现403错误。对于这种403禁止访问的错误，我们一般只需要加上对应的header参数即可。具体需要哪些参数，可以将完整的请求拷贝过来，然后进行头信息分析。通常需要的参数如下： req.add_head

这里我选取搜索框，也就是说我们判断搜索框是否出现，当搜索框出现时则判断页面加载完成了，这里为啥不判断这个弹窗呢？这篇文章就到这里啦！记得关注我，获取及时更新，我们可以一起学习、讨论技术，共同进步。今天我们一起看一下如何使用rpa自带的功能来抓取自己想要的页面元素，这里我们以抖音为例来抓取某个领域的作者列表。再判断弹窗是否出现，出现则关闭。想要获取页面元素，大概的流程为：确定页面元素、分析页面元素、使用自带的工具便捷抓取元素。

例如，结合自然语言处理（NLP）技术，RPA可以自动识别网页中的关键信息，而无需依赖固定的HTML标签。在批量抓取网页数据时，RPA机器人通过模拟人类操作浏览器的行为，访问目标网页，提取所需数据，并将其存储到指定位置。例如，访问目标网页的步骤、数据定位的方式、数据存储的格式等。例如，抓取商品价格时，机器人可以通过定位价格所在的HTML标签，提取其中的文本内容。通过科学实施和持续优化，企业可以充分发挥RPA的潜力，提升数据抓取效率，为业务决策提供有力支持。在实施RPA之前，首先需要明确数据抓取的目标和需求。

Python 提供了多种强大的网页抓取方法，适用于不同类型的网页。requests和是最基础且简单的组合，适合静态网页抓取；Selenium是抓取动态加载网页的强大工具；Scrapy则是一个功能全面、适用于大规模抓取任务的框架。选择合适的工具可以让你高效地抓取网页数据，应用于数据分析、内容聚合等多个领域。希望本文的介绍和代码示例能够帮助你更好地理解和掌握网页抓取技巧！

Selenium 是一个强大的自动化测试工具，它最初是为了进行 web 应用的功能性测试而设计的。然而，由于它可以模拟真实用户的行为与浏览器交互，因此也被广泛应用于动态网页的爬取中。在处理动态网页时，传统的爬虫方法（如使用requests或）可能无法获取到完整的页面内容，因为这些页面的内容是通过 JavaScript 动态加载的。Selenium 可以驱动浏览器执行 JavaScript 代码，从而能够获取到完全加载后的页面内容。

111,120

社区成员

642,545

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章