关于网络爬虫，模拟登陆问题，速求大神回复，在线等

enaking 2016-10-14 01:51:44

前面我发了个贴子，http://bbs.csdn.net/topics/392021782
然后在第17楼及后面的网友给了答案，说这个set cookit的代码在t.js里。我就想问一下，这些兄弟是如何顺藤摸瓜摸到t.js的,应该不是一个一个的看吧。因为我后面还有很多类型的，我对bs开发不太熟，我找不到我需要的js代码。希望大家给个方法及技巧

...全文

227 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

闭包客 2016-10-14

打赏
举报

回复

这个不是先看 .js 文件的。而是看【开发者工具】里面的请求信息，请求是默认按时间的先后列出的，每一次请求的 request cookies 和 response cookies 你都能看到。

EnForGrass 2016-10-14

打赏
举报

回复

引用 2 楼 enaking 的回复:

如果文件多有没技巧，比如先看<script src里关系的js,网页加载调用的函数及相关事件调用的是哪一个函数能看到吗，，我现在就是你们说是在哪个函数里，我去一看，确实是，但叫我自己去找，就找不到 [quote=引用 1 楼 Chinajiyong 的回复:] 这个要看网站结构的复杂程度，当然也要看你的分析经验。像你给的这个网站页面就只有那么几个文件随便看下就知道了，PHP网站很多东西肯定是js处理的。

[/quote] 你给那个网站里的js，还好没给你压缩，加密混淆之类的，要不然即使你知道在这些文件里面，你也没太多办法（那你还得学反混淆哦？）

EnForGrass 2016-10-14

打赏
举报

回复

引用 2 楼 enaking 的回复:

如果文件多有没技巧，比如先看<script src里关系的js,网页加载调用的函数及相关事件调用的是哪一个函数能看到吗，，我现在就是你们说是在哪个函数里，我去一看，确实是，但叫我自己去找，就找不到 [quote=引用 1 楼 Chinajiyong 的回复:] 这个要看网站结构的复杂程度，当然也要看你的分析经验。像你给的这个网站页面就只有那么几个文件随便看下就知道了，PHP网站很多东西肯定是js处理的。

[/quote] 我觉得首先你得学会使用浏览器工具去分析http请求，先把这个学会吧。（不同平台开发的网站都不一样（而且复杂程度也不一样），哪有什么技巧）

孙大诚_SunRobin 2016-10-14

打赏
举报

回复

这个真的是靠经验，平时总结。你能有如此的想法，你进步会很快的。

enaking 2016-10-14

打赏
举报

回复

如果文件多有没技巧，比如先看<script src里关系的js,网页加载调用的函数及相关事件调用的是哪一个函数能看到吗，，我现在就是你们说是在哪个函数里，我去一看，确实是，但叫我自己去找，就找不到

引用 1 楼 Chinajiyong 的回复:

这个要看网站结构的复杂程度，当然也要看你的分析经验。像你给的这个网站页面就只有那么几个文件随便看下就知道了，PHP网站很多东西肯定是js处理的。

EnForGrass 2016-10-14

打赏
举报

回复

这个要看网站结构的复杂程度，当然也要看你的分析经验。像你给的这个网站页面就只有那么几个文件随便看下就知道了，PHP网站很多东西肯定是js处理的。

【为什么学爬虫？】 1、爬虫入手容易，但是深入较难，如何写出高效率的爬虫，如何写出灵活性高可扩展的爬虫都是一项技术活。另外在爬虫过程中，经常容易遇到被反爬虫，比如字体反爬、IP识别、验证码等，如何层层攻克难点拿到想要的数据，这门课程，你都能学到！ 2、如果是作为一个其他行业的开发者，比如app开发，web开发，学习爬虫能让你加强对技术的认知，能够开发出更加安全的软件和网站【课程设计】一个完整的爬虫程序，无论大小，总体来说可以分成三个步骤，分别是：网络请求：模拟浏览器的行为从网上抓取数据。数据解析：将请求下来的数据进行过滤，提取我们想要的数据。数据存储：将提取到的数据存储到硬盘或者内存中。比如用mysql数据库或者redis等。那么本课程也是按照这几个步骤循序渐进的进行讲解，带领学生完整的掌握每个步骤的技术。另外，因为爬虫的多样性，在爬取的过程中可能会发生被反爬、效率低下等。因此我们又增加了两个章节用来提高爬虫程序的灵活性，分别是：爬虫进阶：包括IP代理，多线程爬虫，图形验证码识别、JS加密解密、动态网页爬虫、字体反爬识别等。Scrapy和分布式爬虫：Scrapy框架、Scrapy-redis组件、分布式爬虫等。通过爬虫进阶的知识点我们能应付大量的反爬网站，而Scrapy框架作为一个专业的爬虫框架，使用他可以快速提高我们编写爬虫程序的效率和速度。另外如果一台机器不能满足你的需求，我们可以用分布式爬虫让多台机器帮助你快速爬取数据。从基础爬虫到商业化应用爬虫，本套课程满足您的所有需求！【课程服务】专属付费社群+定期答疑

欢迎关注我的公众号：高级农民工，博客：高级农民工，阅读体验更好。摘要：介绍微信、知乎、新浪等一众主流网站的模拟登陆爬取方法。网络上有形形色色的网站，不同类型的网站爬虫策略不同，难易程度也不一样。从是否需要登陆来说，一些简单网站不需要登陆就可以爬，比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬，比如知乎、微信等。这类网站在模拟登陆时需要处理验证码、js 加密参数这些问题，爬取难度会...

欢迎关注我的公众号：高级农民工，博客：高级农民工，阅读体验更好。摘要：介绍微信、知乎、新浪等一众主流网站的模拟登陆爬取方法。网络上有形形色色的网站，不同类型的网站爬虫策略不同，难易程度也不一样。从是否需要登陆来说，一些简单网站不需要登陆就可以爬，比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬，比如知乎、微信等。这类网站在模拟登陆时需要处理验证码、js 加密参数这些问题，爬取难度会...

涉及的库或工具：urllib、requests、Beautiful Soup、XPath、pyquery、redis-py、PyMongo、PyMySQL、Selenium、Splash、Charles、mitmproxy、mitmdump、Appium、pyspider、Scrapy、Scrapy-Redis、Scrapy-Splash、Docker、Bloom Filter、Gerapy等。你只需要照做就可以了。第1章介绍学习爬虫前需要了解的基础知识，如HTTP、网页结构、多线程等等，适合初学者。

博主6月初的时候换了个工作，刚进来的时候什么事没有，愣是上班喝茶逛网站渡过了一周。那周周五的boss突然问我会不会爬虫。作为一个才工作一年的javaer表示根本没接触过，但是那种情况下你还敢说不会么，但是当时也不敢说的很绝对，因此就和boss就会一点。当时就隐隐约约有爬虫任务了，感觉周末去突击了一下。果不其然，下周一的时候给我一个账号和密码，让我每隔5分钟爬取该网站的客户信息数据存到自己的...

62,074

社区成员

669,028

社区内容

发帖

与我相关

我的任务

javascript云原生企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见，支持健康理性的辩论和互动，反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧

+ 用AI写文章