模拟浏览器

wz2000 2000-08-24 01:17:00

我开发了一个网上机器人自动搜索指定网站的文件。对绝大多数网站都行之有效。但在测试中发现有些网站有抗的功能。现象有2：
1。一旦不使用浏览器直接访问某些文件返回ERROR
2。有的即便使用浏览器，由于不是从SERVER端发出文件请求，所以也返回ERROR
问如何模拟浏览器，让SERVER端不能判断是ROBOT在访问

...全文

173 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

skt642 2001-05-31

打赏
举报

回复

37772关注！

Sayhigh 2000-08-25

打赏
举报

回复

模拟Brower的报头足以骗过网站，报头有很多资料介绍，

gey 2000-08-25

打赏
举报

回复

注

JGTM2000 2000-08-24

打赏
举报

回复

服务器只懂得HTTP协议，你要搞明白浏览器发出的HTTP请求和你自己模拟发出的有什么不一样。简单的方法，2分钟编一个socket server然后用她来察看浏览器实际发出的请求，找出差异。

selenium及所有依赖jar包(java)，selenium,java,模拟浏览器,模拟登录

google浏览器插件 postman的使用，可以模拟get post提交，很好的调试工具。

【为什么学爬虫？】 1、爬虫入手容易，但是深入较难，如何写出高效率的爬虫，如何写出灵活性高可扩展的爬虫都是一项技术活。另外在爬虫过程中，经常容易遇到被反爬虫，比如字体反爬、IP识别、验证码等，如何层层攻克难点拿到想要的数据，这门课程，你都能学到！ 2、如果是作为一个其他行业的开发者，比如app开发，web开发，学习爬虫能让你加强对技术的认知，能够开发出更加安全的软件和网站【课程设计】一个完整的爬虫程序，无论大小，总体来说可以分成三个步骤，分别是：网络请求：模拟浏览器的行为从网上抓取数据。数据解析：将请求下来的数据进行过滤，提取我们想要的数据。数据存储：将提取到的数据存储到硬盘或者内存中。比如用mysql数据库或者redis等。那么本课程也是按照这几个步骤循序渐进的进行讲解，带领学生完整的掌握每个步骤的技术。另外，因为爬虫的多样性，在爬取的过程中可能会发生被反爬、效率低下等。因此我们又增加了两个章节用来提高爬虫程序的灵活性，分别是：爬虫进阶：包括IP代理，多线程爬虫，图形验证码识别、JS加密解密、动态网页爬虫、字体反爬识别等。Scrapy和分布式爬虫：Scrapy框架、Scrapy-redis组件、分布式爬虫等。通过爬虫进阶的知识点我们能应付大量的反爬网站，而Scrapy框架作为一个专业的爬虫框架，使用他可以快速提高我们编写爬虫程序的效率和速度。另外如果一台机器不能满足你的需求，我们可以用分布式爬虫让多台机器帮助你快速爬取数据。从基础爬虫到商业化应用爬虫，本套课程满足您的所有需求！【课程服务】专属付费社群+定期答疑

之前在异步加载（AJAX）网页爬虫的时候提到过，爬取这种ajax技术的网页有两种办法：一种就是通过浏览器审查元素找到包含所需信息网页的真实地址，另一种就是通过selenium模拟浏览器的方法[1]。当时爬的是豆瓣，比较容易分析出所需信息的真实地址，不过一般大点的网站像淘宝这种是不好分析的，所以利用selenium模拟浏览器的行为来爬取数据是一个比较可行的办法。

在上述代码中，我们首先需要设置需要访问的网页 URL，并构造一个请求头 headers，以模拟浏览器的访问行为。然后，我们可以通过 urllib.request 模块的 Request 方法创建一个请求对象 req，将设置好的 URL 和请求头信息传入。总体来说，使用 urllib.request 模块模拟浏览器访问网页非常简单，只需要构造好请求头信息，然后通过 urllib.request.urlopen 函数向服务器发送请求即可。这样可以有效地规避一些反爬虫机制，同时也方便我们获取需要的网页数据。

5,386

社区成员

262,729

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章