如何爬去淘宝商品的所有评论

SmallCSer 2013-04-18 02:00:43
我最近在做一个项目,需要爬取淘宝网上一个商品的所有评论,项目用java开发,使用了htmlUnit开源框架,发现淘宝网页用了ajax技术,我以前也没接触过ajax,现在有点不值所措,求诸位帮忙。我的代码是这样写的:
package nankai.SpiderDemo4;

import java.io.File;
import java.io.IOException;
import java.net.MalformedURLException;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class HtmlUnitSpider {

private String urlString;

public HtmlUnitSpider(String urlString) {
this.urlString = urlString;
}

public String getUrlString() {
return urlString;
}

public void setUrlString(String urlString) {
this.urlString = urlString;
}

public void run() {
WebClient webClient = new WebClient(BrowserVersion.FIREFOX_10);
webClient.setAjaxController(new NicelyResynchronizingAjaxController());
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setActiveXNative(false);
webClient.getOptions().setCssEnabled(true);
webClient.getOptions().setThrowExceptionOnScriptError(false);
try {
HtmlPage page = webClient.getPage(this.getUrlString());
System.out.println(<span style="color: #FF0000;">page.asXml()</span>);

} catch (FailingHttpStatusCodeException e) {
e.printStackTrace();
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (Throwable e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}
}
运行结果中里面也没有评论相关的,据说是淘宝使用了懒加载技术,请问各位:怎么破!
...全文
1251 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
楼主问题解决了吗?我现在也在做这方面的研究,楼主能不能分享一下经验呢
youyou1912 2013-05-09
  • 打赏
  • 举报
回复
就算ajax也是有请求的, 你模拟就可以了. 用HTTPwatch或者抓包查看可以找到评论加载HTTP Post请求, 甚至可能都已经很好的格式化了. 你登陆淘宝后, 模拟发送类似请求就可以了.
SmallCSer 2013-04-18
  • 打赏
  • 举报
回复
SmallCSer 2013-04-18
  • 打赏
  • 举报
回复

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧