社区
Java EE
帖子详情
我用htmlunit想获取js加载后的页面源码 但是不知道怎么做 求指教
caiselangren
2013-07-05 11:50:33
最近研究htmlunit 看到好多人说htmlunit的功能很强大 可以获取js加载后的代码 但是一直没看到过代码 求大神教教我们 最好是能有源码
...全文
1064
9
打赏
收藏
我用htmlunit想获取js加载后的页面源码 但是不知道怎么做 求指教
最近研究htmlunit 看到好多人说htmlunit的功能很强大 可以获取js加载后的代码 但是一直没看到过代码 求大神教教我们 最好是能有源码
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
9 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
zhangkehong826
2015-09-15
打赏
举报
回复
那也jar包啊,哥哥们,急需
soujiro
2014-06-06
打赏
举报
回复
引用 7 楼 dh670565389 的回复:
您好,请问下,我导入htmlunit的jar包,编译出错了,好像要导入10多个jar包,你那里是这样吗
我是导入了好多jar才行 之前光导入 HtmlUnit 不行
dh670565389
2014-06-05
打赏
举报
回复
您好,请问下,我导入htmlunit的jar包,编译出错了,好像要导入10多个jar包,你那里是这样吗
你是我的绝笔
2014-05-17
打赏
举报
回复
try{ WebClient webClient = new WebClient(BrowserVersion.FIREFOX_24); //设置webClient的相关参数 webClient.getOptions().setJavaScriptEnabled(true); webClient.getOptions().setCssEnabled(false); webClient.setAjaxController(new NicelyResynchronizingAjaxController()); //webClient.getOptions().setTimeout(50000); webClient.getOptions().setThrowExceptionOnScriptError(false); //模拟浏览器打开一个目标网址 HtmlPage rootPage= webClient.getPage(url); System.out.println("为了获取js执行的数据 线程开始沉睡等待"); Thread.sleep(3000);//主要是这个线程的等待 因为js加载也是需要时间的 System.out.println("线程结束沉睡"); String html = rootPage.asText(); System.out.println(html); }catch(Exception e){ }
birds_smith
2013-12-19
打赏
举报
回复
怎么贴进去用不了呀
caiselangren
2013-07-17
打赏
举报
回复
url="XXXX"; System.out.println("----------"+url); WebClient webClient = new WebClient(BrowserVersion.FIREFOX_17); //设置webClient的相关参数 webClient.setJavaScriptEnabled(true); webClient.setCssEnabled(false); webClient.setAjaxController(new NicelyResynchronizingAjaxController()); webClient.setTimeout(50000); webClient.setThrowExceptionOnScriptError(false); //模拟浏览器打开一个目标网址 HtmlPage rootPage= webClient.getPage(url); System.out.println("为了获取js执行的数据 线程开始沉睡等待"); Thread.sleep(30000);//主要是这个线程的等待 因为js加载也是需要时间的 System.out.println("线程结束沉睡"); String html = rootPage.asXml(); System.out.println(html);
caiselangren
2013-07-17
打赏
举报
回复
自己找到了方法了
caiselangren
2013-07-05
打赏
举报
回复
自己顶下 求帮助
通过
htmlunit
获取
执行
js
代码后的html文档
获取
执行
js
代码后的html文档。
基于ApacheNutch和
Htmlunit
的扩展实现AJAX
页面
爬虫抓取解析插件nutch-
htmlunit
.zip
运行结束后可以看到天猫商品
页面
的价格/描述/滚动
加载
的图片等所有信息都已经完整
获取
到。 运行日志输入示例参考:http://git.oschina.net/xautlx/nutch-
htmlunit
/wikis/Log 扩展插件说明 ...
java使用
htmlunit
工具抓取
js
中
加载
的数据.docx
java使用
htmlunit
工具抓取
js
中
加载
的数据.docx
htmlunit
-core-
js
-2.27-API文档-中文版.zip
赠送源代码:
htmlunit
-core-
js
-2.27-sources.jar; 赠送Maven依赖信息文件:
htmlunit
-core-
js
-2.27.pom; 包含翻译后的API文档:
htmlunit
-core-
js
-2.27-javadoc-API文档-中文(简体)版.zip; Maven坐标:...
htmlunit
源码
htmlunit
开发包 提供对html网页的
获取
和解析等
Java EE
67,513
社区成员
225,879
社区内容
发帖
与我相关
我的任务
Java EE
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
复制链接
扫一扫
分享
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章