有满意贴立即加分！Java 网络爬虫对 js 的解析

DavidHsing 2009-08-26 11:07:58

各位，俺最近自己在用 Java 尝试做个网络爬虫方面的东西，使用 HttpClient + HtmlParser，
目前对于页面上的链接处理都没有问题，可以一直运行下去并且结果良好。
现在的问题是：
对于页面上很多 js 代码处理很不恰当。

比如，页面上有个

<input type="button" onclick="JavaScript:doSomething()" value="测试一下" />

然后在 js 里面有

 

function doSomething()

{

    location.href = "http://www.baidu.com";

}

就是说，要怎样才能获取到这个 baidu 地址，前提是，不能写死程序。
或者说有没有其他的第三方库对 js 的处理好点？HtmlParser 是完全不行，对 js。

...全文

508 10 打赏收藏转发到动态举报

写回复

用AI写文章

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

DavidHsing 2011-12-11

打赏
举报

没有，最好不了了之，没去深入研究了

Busing 2011-12-10

打赏
举报

不知道楼主现在解决了木有，如有好方法希望共享一下哈谢谢

Busing 2011-12-10

打赏
举报

跟楼主有同样的苦恼，我也想读趴下来的html代码中的 js变量

IT流渊 2010-08-13

打赏
举报

HtmlAgilityPack 应该可以读取到js

PeacefulBY 2009-08-29

打赏
举报

用HttpURLConnection把包括js在内的整个网页内容读下来，再用正则表达式(?<=")http://[^"]+(?=")捕获引号内的URL地址

DavidHsing 2009-08-29

打赏
举报

没人知道？

DavidHsing 2009-08-29

打赏
举报

这话说的跟没说一样，哎
结贴了

java91 2009-08-29

打赏
举报

建议看下HtmlParser的源码，看能否改下实现。很多时候，得有研究精神。

DavidHsing 2009-08-29

打赏
举报

这个办法不是很靠谱，如果依据 js 的判断条件来跳转到不同的界面不就挂了？

wj_wjian 2009-08-26

打赏
举报

学习。

本文详细介绍了网络爬虫的概念、Python爬虫的实战示例、应用案例如搜索引擎数据抓取、电商分析等，涵盖了编程语言选择、开发工具库、基本流程，以及面对动态网页、反爬策略和未来发展趋势，特别是AI在其中的作用。

本文介绍Python网络爬虫的学习路径，分为三个阶段：掌握Python基础、实践爬虫代码和独立设计爬虫系统。适合初学者快速入门。

本文提供了Python全方向的学习路线、学习资源、工具推荐、实战案例和面试准备，强调系统学习和动手实践的重要性。同时介绍了Selenium在爬虫中的应用，以及如何避免浅尝辄止，确保技术提升。

本文指导Python网络爬虫初学者分三步走：1)建立Python基础，理解变量、字符串等；2)学习网络请求原理和常用库，如urllib和requests；3)实践项目，掌握动态抓取、模拟浏览器和高效抓取策略。提供了一份完整的Python学习资源大礼包链接。

本文介绍了一个基于Java和大数据技术的电脑硬件推荐系统，该系统采用Scrapy框架进行网络爬虫数据采集，并利用机器学习和深度学习算法进行数据分析和可视化。系统支持多种技术栈，包括Python、Java、Node.js和PHP，并提供了最短路线推荐算法、线性回归、LSTM算法、随机组卷算法等创新功能。

Web 开发

81,111

社区成员

341,725

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章