关于抓取的百度搜索内容和实际浏览器打开的搜索内容不一样的问题

R_ine 2016-12-16 11:12:40

就是我用java抓取了某个词的百度搜索的源码，但获取到的html代码=-=和浏览器访问某个词的百度搜索内容，不一样。
这是为什么=-=
比如我搜索关键词“搜索”：
我用java获取到的页面：

但我用浏览器实际打开的页面是：

怎么才能2个页面一样呢=-=

...全文

1051 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

孟子E章 2016-12-16

打赏
举报

回复

你可以使用Http抓包工具查看提交到参数，都写到你的代码中应该就相同了，另外注意看浏览器是否使用了ajax查询了某些数据，其实浏览器也是程序写的

学习利用抓取股票信息

python selenium抓取网页源码与看到的内容不一致以天眼查一个公司的信息为例显示内容与源码不一致，很明显使用了加密进行font文件查看是不是这里面动了手脚如何解决这个问题呢？以天眼查一个公司的信息为例网站地址：https://www.tianyancha.com/company/100360072 网页核准日期显示的时间如下：结果发现信息不一致，为什么不一样？？显示内容与源码不一致，很明显使用了加密当时猜测的是应该是在字体上动了手脚，然后就查看了一下，总共有两个font文件。进行

具体问题在爬取某个网站时遇到了一个奇怪的问题，就是只要是python爬取的数据得到的基本就是那么几种数据，无论我输入的是什么，返回的数据与浏览器得到返回的数据都不一样，这让我很郁闷，百度也找不到想要的答案。直到最后才发现是自己对python不够了解，不是网站问题，是自己的问题。解决方法在requests库中，requests.post()方法中构造参数data时，data里面非ASCI...

目标：需要获取一些微信网页的前端资源，嘿嘿，你懂的。方法：方法一：用chrome模拟微信浏览器，这个需要OAuth2.0授权的网页就获取不了啦。。。方法二：百度了说可以用PHP的代码模拟访问，测试了也不行，实际结果与方法一一致。方法三：采用fiddler抓包，成功达到目的，具体操作参照以下资源， 1、在实际的操作中，发现用汉化的fiddler抓取不了。于是在https://pc....

搜索引擎技术

2,760

社区成员

2,052

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章