各位,俺最近自己在用 Java 尝试做个网络爬虫方面的东西,使用 HttpClient + HtmlParser,
目前对于页面上的链接处理都没有问题,可以一直运行下去并且结果良好。
现在的问题是:
对于页面上很多 js 代码处理很不恰当。
比如,页面上有个
<input type="button" onclick="JavaScript:doSomething()" value="测试一下" />
然后在 js 里面有
function doSomething()
{
location.href = "http://www.baidu.com";
}
就是说,要怎样才能获取到这个 baidu 地址,前提是,不能写死程序。
或者说有没有其他的第三方库对 js 的处理好点?HtmlParser 是完全不行,对 js。