社区
Web 开发
帖子详情
有人做过网络爬虫来爬反爬的网页么?
Michelle_2009
2010-05-25 01:46:57
如题
...全文
413
19
打赏
收藏
有人做过网络爬虫来爬反爬的网页么?
如题
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
19 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
binghuo1000
2012-02-15
打赏
举报
回复
我现在也正好遇到了这样的问题:如何用脚本解析引擎模拟浏览器来执行网页中的js代码
请问你对这个问题有方法了吗?
ZY171450
2011-03-10
打赏
举报
回复
模拟浏览器来爬
Milo2015
2010-05-26
打赏
举报
回复
淅沥沥
Michelle_2009
2010-05-26
打赏
举报
回复
无解。。。
zhongguolong_mei
2010-05-25
打赏
举报
回复
动态生成的url 连google都不抓的,你要分析出这个你只能自己分析你要抓取页面的html中的js代码块,然后去 写抓取。比如说google map中的地图块就是Js自动生成的。 你只能尝试用java代码代替js代码去算新的url然后抓取该连接的图片,最后拼接。
izard999
2010-05-25
打赏
举报
回复
好的.. 发下我邮箱hui8023pingf@163.com 我看看你说的本地化是什么东西.!
以前还真没这么搞过.! thank you
Michelle_2009
2010-05-25
打赏
举报
回复
好吧 还是谢谢你啦~,你要是需要的话我这里有几篇论文可以给你参考,呵呵
izard999
2010-05-25
打赏
举报
回复
这个还真没用过.! 以前都自己改完了再上去用的.! 俺也去现学一下好了.!
呵呵.!
Michelle_2009
2010-05-25
打赏
举报
回复
我在论文上看到说可以用脚本引擎模拟浏览器执行js脚本,把浏览器内置对象本地化以后就可以使用脚本引擎解析了。而和url有关的dom对象只有window和document,所以不能说js里面不要有浏览器相关的对象吧,现在的问题是我不知道怎么实现本地化。。。
sl514
2010-05-25
打赏
举报
回复
java实现简单的网络爬虫 抓取并保存博客园(cnblogs)的文章
izard999
2010-05-25
打赏
举报
回复
对了,问得好.!刚忘记告诉你了.!
程序发请求从某些程度上讲是代替不了浏览器的.!比如就像你说的window/document一些浏览器的对象,程序是无法解析的.!
ScriptEngineManager调用js的时候,你的js里面不要有浏览器相关的对象,比如说window,document.
所以一般我们爬回来js都会做一些小小的修改,把与浏览器相关的对象全部用其他方式解决.!
比如说鼠标位置, window.event之类的, 自己模拟下鼠标,每次把这个位置调整下.!
曾经我也为改js花了一些功夫的.!
Michelle_2009
2010-05-25
打赏
举报
回复
但是对于js里边涉及的浏览器对象,比如document和window,怎么处理呢?向您请教了
izard999
2010-05-25
打赏
举报
回复
htmlParser是javax.swing包下自带的解析html的一些类. 而httpParser是第三方提供个jar包.!
发送一个请求到一个网站, 毕竟会相应一个结果给你是吧.?服务器和你的java程序是通过什么通信的呢.?inputStream和outputStream对吧.?
HttpClient是对url/Socket的封装, 可以直接拿到返回结果, 然后用EntityUtils.toString(entity)可以把你的网页变成字符串形式.! 这个时候你拿到的网页肯定既有js,也有html内容吧.?解析它就好了阿.! 如果发现还有<script>标签,就拿这里面的内容再发请求拿结果.!
不用你说的rhino和corba, 就用你说的htmlParser和HttpClient+ScriptEngineManager就能完成你想要做的事了.!
Michelle_2009
2010-05-25
打赏
举报
回复
楼上高手啊!我刚刚说错了,应该是htmlparser不是httpparser。
刚才你说的用httpclient发请求,爬回来一个页面,用httpparser就可以得到网页中所有的超链接,你说的这种超链接是静态的吧?还有一些超链接是通过执行js语句得出的url,这种url我也需要爬下来的。
不知楼上是否知道rhino或者corba?
izard999
2010-05-25
打赏
举报
回复
httpParser是一个解析包而已.!
比如说你用httpClient发请求,爬回来一个页面,那么这个时候你想拿到网页中所有的超链接, 这个时候用httpParser就很容易了阿.! 例子jar包里肯定有!
你用ScriptEngineManager调用js,不就可以获得js动态生成的url了吗.? 你上面那句话一说,我还真不太明白你有什么需求了.! java调用js跟你要爬网页关系不大.!
但是比如说你拿到某些超链接, 当点击这个超链接会触发一段js函数的时候,这个时候才会跟ScriptEngineManager挂钩.!
Michelle_2009
2010-05-25
打赏
举报
回复
httpParser?求详解。。。
我最近想做使用脚本引擎模拟浏览器来执行网页中的js代码获得动态的url,也看到了httpParser,不知道它功能这么强大
辛鹤
2010-05-25
打赏
举报
回复
google 网络爬虫
izard999
2010-05-25
打赏
举报
回复
这个实现非常容易的. 用httpClient和httpParser可以很轻松搞定
healer_kx
2010-05-25
打赏
举报
回复
HttpClient,搜~
练习小项目:微博
爬
虫
自学
爬
虫
近1个月,基本的库啊框架啊基本也都囫囵吞枣的过了一遍,感觉网上视频里各大名师砖家带着练习的项目,基本都是毫无
反
爬
机制的NC网站,感觉若是在实际工作中(没工作过-。-),怕是没有这么容易的网站要你
爬
取的吧。个人一点愚见,某网站数据有分析价值,才会
有人
爬
,因为给
爬
多了运营小姐姐很生气,该网站才会去研究怎么
反
爬
,于是反
反
爬
,于是反反
反
爬
,于是反反反
反
爬
。。。。。连selenium这么低效的东西都给扯出来写
爬
虫
,可以看出门户网站的大牛守护运营小姐姐的决心,反正个人暗下决心,不是万不得已,绝不用selenium这等伤敌一千,自损八百的武功。更扯的是,连检测selenium的招儿现在都给门户大佬们
爬
虫
中常见的
反
爬
手段和解决方法
了解
反
爬
的三个方向 了解常见基于身份识别进行
反
爬
了解常见基于
爬
虫
行为进行
反
爬
了解常见基于数据加密进行
反
爬
一、
反
爬
的三个方向 基于身份识别进行
反
爬
基于
爬
虫
行为进行
反
爬
基于数据加密进行
反
爬
二、常见基于身份识别进行
反
爬
1. 通过headers字段来
反
爬
headers中有很多字段,这些字段都有可能会被对方服务器拿过来判断是否为
爬
虫
1.1 通过headers中的user-agent字段进行
反
爬
反
爬
原理:
爬
虫
默认情况下没有user-agent,而是使用模块默认设置 解决..
150讲轻松学习Python
网络
爬
虫
【为什么学
爬
虫
?】 1、
爬
虫
入手容易,但是深入较难,如何写出高效率的
爬
虫
,如何写出灵活性高可扩展的
爬
虫
都是一项技术活。另外在
爬
虫
过程中,经常容易遇到被反
爬
虫
,比如字体
反
爬
、IP...
Python
爬
虫
有哪些常见的
反
爬
手段?
Python
爬
虫
作为一种自动化程序,对于一些需要大量抓取数据的场景非常有用。但是由于网站担心被
爬
虫
非法获取数据,常会采取多种
反
爬
手段,以阻挡或限制
爬
虫
的工作。下面将介绍一些常见的
反
爬
技术及相应的应对方法。
16.
网络
爬
虫
—字体
反
爬
(实战演示)
一·字体
反
爬
原理 🧾 🧾 Python字体
反
爬
原理是指
爬
虫
在
爬
取网站数据时,遇到了基于字体
反
爬
的防护措施。这种
反
爬
措施是通过将网站的文字转换成特定的字体文件,然后在页面上引用该字体文件来显示文字,使得
爬
虫
无法直接获取文字内容。 🧾 具体原理如下: 网站将需要显示的文字转换成特定的字体文件,通常是TrueType或OpenType格式的字体文件。 网站在页面上引用该字体文件,并使用CSS样式将需要显示的文字的字体设置为该字体文件。
爬
虫
在获取页面源代码时,无法直接获取到需要显示的文字内容,只能获
Web 开发
81,091
社区成员
341,719
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章