HttpClient做网页爬虫遇到的问题!!!
我的目的是,使用HttpClient解析人人网,先实现登陆,然后在实现发状态。
解析登陆时,我找到了人人网的登陆界面,查看源码,发现带有账号和密码的那个表单提交的地址是http://www.renren.com/PLogin.do,然后我是用Httpclient4.1.3的jar包进行编程,实现了登陆,比较麻烦的是这个地址中间还跳转了一次,所以需要用到Httpclient重定向,不过最后还是登陆成功了。
现在的问题是:我用同样的方法找了一下发状态那个表单提交的地址是http://shell.renren.com/305219253/status,但是我照原来那样做却不能发帖,在网上我找了一下,有高手实现了Httpclient解析人人网发状态,我看了一下源码,结果人家这里的表单提交的地址并不是这个。
所以在这里,我想请教一下高手,怎么解析出表单提交的地址,有没有什么工具来追踪一下浏览器提交表单这个过程,从而解析出表单提交的地址,如果有,那是什么工具,最好讲解一下这个工具怎么用。如果没有这种工具,该怎么解析!
期待高手!!!!