有满意贴立即加分!Java 网络爬虫对 js 的解析

DavidHsing 2009-08-26 11:07:58
各位,俺最近自己在用 Java 尝试做个网络爬虫方面的东西,使用 HttpClient + HtmlParser,
目前对于页面上的链接处理都没有问题,可以一直运行下去并且结果良好。
现在的问题是:
对于页面上很多 js 代码处理很不恰当。

比如,页面上有个
<input type="button" onclick="JavaScript:doSomething()" value="测试一下" />

然后在 js 里面有
 
function doSomething()
{
location.href = "http://www.baidu.com";
}


就是说,要怎样才能获取到这个 baidu 地址,前提是,不能写死程序。
或者说有没有其他的第三方库对 js 的处理好点?HtmlParser 是完全不行,对 js。
...全文
407 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
DavidHsing 2011-12-11
  • 打赏
  • 举报
回复
没有,最好不了了之,没去深入研究了
Busing 2011-12-10
  • 打赏
  • 举报
回复
不知道楼主现在解决了木有,如有好方法希望共享一下哈 谢谢
Busing 2011-12-10
  • 打赏
  • 举报
回复
跟楼主有同样的苦恼,我也想读 趴下来的html代码中的 js变量
IT流渊 2010-08-13
  • 打赏
  • 举报
回复
HtmlAgilityPack 应该可以读取到js
PeacefulBY 2009-08-29
  • 打赏
  • 举报
回复
用HttpURLConnection把包括js在内的整个网页内容读下来,再用正则表达式(?<=")http://[^"]+(?=")捕获引号内的URL地址
DavidHsing 2009-08-29
  • 打赏
  • 举报
回复
没人知道?
DavidHsing 2009-08-29
  • 打赏
  • 举报
回复
这话说的跟没说一样,哎
结贴了
java91 2009-08-29
  • 打赏
  • 举报
回复
建议看下HtmlParser的源码,看能否改下实现。很多时候,得有研究精神。
DavidHsing 2009-08-29
  • 打赏
  • 举报
回复
这个办法不是很靠谱,如果依据 js 的判断条件来跳转到不同的界面不就挂了?
wj_wjian 2009-08-26
  • 打赏
  • 举报
回复
学习。

81,092

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧