webclent.getpage问题

fenglvche 2015-11-14 05:52:14
最近在写一些爬虫的东西,有使用一些网站的OA的东西,但是JAVA代码使用htmlunit的时候出现了一些问题,它的webclient老是会出现不能链接的情况:
都是卡在HtmlPage checkPage = webClient.getPage(authorizationUrl);这里
1)做Facebook的提示
org.apache.http.conn.HttpHostConnectException: Connection to https://www.facebook.com refused
2)做豆瓣的提示
javax.net.ssl.SSLPeerUnverifiedException: peer not authenticated
然而,使用authorizationUrl里的地址,在chrome上打开都是可以进入使用的,返回的结果也跟预期一样,就是在java的tomcat上面一直会有这类错误
...全文
54 点赞 收藏 2
写回复
2 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
fenglvche 2015-11-15
可是我用的是他们的API啊,主要是在进入OA认证的时候,抓取不到认证的网页,但是,理论是应该要留给我们一个方法进去拿返回的code才是,如果拒绝了我的webclient.getpage的请求,那么应该怎么去获得那个code。
回复
海会圣贤 2015-11-15
他们网站把你的爬虫禁了,就像你爬不到csdn一样。
回复
相关推荐
发帖
Web 开发
创建于2007-09-28

8.0w+

社区成员

Java Web 开发
申请成为版主
帖子事件
创建了帖子
2015-11-14 05:52
社区公告
暂无公告