模拟浏览器

wz2000 2000-08-24 01:17:00

我开发了一个网上机器人自动搜索指定网站的文件。对绝大多数网站都行之有效。但在测试中发现有些网站有抗的功能。现象有2：
1。一旦不使用浏览器直接访问某些文件返回ERROR
2。有的即便使用浏览器，由于不是从SERVER端发出文件请求，所以也返回ERROR
问如何模拟浏览器，让SERVER端不能判断是ROBOT在访问

...全文

178 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

skt642 2001-05-31

打赏
举报

回复

37772关注！

Sayhigh 2000-08-25

打赏
举报

回复

模拟Brower的报头足以骗过网站，报头有很多资料介绍，

gey 2000-08-25

打赏
举报

回复

注

JGTM2000 2000-08-24

打赏
举报

回复

服务器只懂得HTTP协议，你要搞明白浏览器发出的HTTP请求和你自己模拟发出的有什么不一样。简单的方法，2分钟编一个socket server然后用她来察看浏览器实际发出的请求，找出差异。

selenium及所有依赖jar包(java)，selenium,java,模拟浏览器,模拟登录

google浏览器插件 postman的使用，可以模拟get post提交，很好的调试工具。

之前在异步加载（AJAX）网页爬虫的时候提到过，爬取这种ajax技术的网页有两种办法：一种就是通过浏览器审查元素找到包含所需信息网页的真实地址，另一种就是通过selenium模拟浏览器的方法[1]。当时爬的是豆瓣，比较容易分析出所需信息的真实地址，不过一般大点的网站像淘宝这种是不好分析的，所以利用selenium模拟浏览器的行为来爬取数据是一个比较可行的办法。

在做一些天气预报或者RSS订阅的程序时，往往需要抓取非本地文件，一般情况下都是利用php模拟浏览器的访问，通过http请求访问url地址，然后得到html源代码或者xml数据，得到数据我们不能直接输出，往往需要对内容进行提取，然后再进行格式化，以更加友好的方式显现出来。下面简单说一下php抓取页面的几种方法及原理:一、 PHP抓取页面的主要方法：1. file()函数2. file_get_co...

在上述代码中，我们首先需要设置需要访问的网页 URL，并构造一个请求头 headers，以模拟浏览器的访问行为。然后，我们可以通过 urllib.request 模块的 Request 方法创建一个请求对象 req，将设置好的 URL 和请求头信息传入。总体来说，使用 urllib.request 模块模拟浏览器访问网页非常简单，只需要构造好请求头信息，然后通过 urllib.request.urlopen 函数向服务器发送请求即可。这样可以有效地规避一些反爬虫机制，同时也方便我们获取需要的网页数据。

5,388

社区成员

262,730

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章