如何模拟新浪登陆，获取页面信息

woyouxiaziyuan 2012-04-20 05:16:53

新浪在登陆处理时是不是很复杂呀，
我想进入他人的个人主页，获取信息，但是需要登陆才能看的到
网上查了下，还是不知道怎么做
有曾经做过的吗？

...全文

52 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

西门呀在吹雪 2012-04-22

打赏
举报

回复

拦截器很简单的判断session

python模拟新浪微博登陆之获取cookie首先感谢，敲代码的耗子http://www.cnblogs.com/mouse-coder/archive/2013/03/03/2941265.html?utm_source=tuicool，之前一直搞不懂登陆新浪微博的原理，看了他那篇文章之后，终于明白了基本原理。在这里主要是通过代码实现那篇文章的过程。获取网页使用的包是requests，正则匹配用的

最近需要爬取微博的数据进行分析，对于新浪微博，官方提供了API，但是有几个比较致命的限制（调用次数限制和授权期限限制），所以我觉得有必要研究一下爬虫直接爬去微博的方式获取微博数据的可行性。由于模拟登陆微博是爬虫爬取微博信息的第一步，所以在这里先介绍一下怎么模拟登陆微博（以下以新浪微博为例）。此过程主要分两步： 1 脚本模拟登陆新浪微博，保存cookie； 2 有了cookie信息后，利

首先感谢敲代码的耗子，之前一直搞不懂登陆新浪微博的原理，看了他那篇文章之后，终于明白了基本原理。在这里主要是通过代码实现那篇文章的过程。获取网页使用的包是requests，正则匹配用的是re，其他需要的还有base64、rsa、binascii。如果安装有pip，可以直接在cmd(linux在终端)中输入命令“pip install 包名”进行安装，包的安装方法有很多种，这里不详述。其实，过程的实...

模拟登陆就是获取新浪服务器返回的登陆参数（cookies等），然后添加到爬虫的post请求中来伪装用户提交给新浪访客系统首先感谢 Bgods（https://blog.csdn.net/songzhilian22/article/details/48396545）敲代码的耗子(http://www.cnblogs.com/mouse-coder/archive/2013/03/03/294...

爬取新浪微博（模拟登陆，数据存储）写在最开头下载浏览器驱动测试驱动是否匹配/font>模拟登陆分析待爬取页面信息保存数据程序github地址写在最开头该程序主要是为爬取新浪微博，想要搜索的信息，主要报错的信息为文本，其他元素未涉及，此外微博博主信息，笔者也不关注，时间等信息同样不关注，主要目的就是获取文本信息。因此，本着对读者同样同样也是对自己负责的态度，文中添加了一些程序的注释及一些爬虫的思想。如果不感兴趣，直接想看程序，可以直接clone该代码，已上传到github；当然，如果有问题可以在评

67,512

社区成员

225,880

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章