java 模拟浏览器请求时设置cookie的问题

隔壁家老伍 2015-09-18 11:30:42
第一次做抓取网页的数据。
第一步先通过搜狗获取关键字的相关文章
String key = "周杰伦"; // 查询关键字
key = URLEncoder.encode(key, "utf-8");
URL u = new URL("http://weixin.sogou.com/weixin?type=2&query=" +key+"&&ie=utf8");
第二步 获取的内容中获取文章内容的链接:
http://weixin.sogou.com/websearch/art.jsp?sg=CBf80b2xkgZxTxxu_UkL216QxR1HbdRivQilTBCDNDyDXq89VNyp0_SqkRRz2c27ahFWwOnWSvo3RKGgXSHZwHTG6EhJiOp6OZ5BFllMnTG2qEZDFjZNRg..&url=p0OVDH8R4SHyUySb8E88hkJm8GF_McJfBfynRTbN8wjirDmLsuMkkv68eq6Be-nfmWVGLlRM1FIYqywq3zWkX1Mj362uDS1p6zQjnqP1u0O6Eeq5_1iYRUtfl8O7jS4w8XSUU-o-gV9Yy-5x5In7jJFmExjqCxhpkyjFvwP6PuGcQ64lGQ2ZDMuqxplQrsbk

从第一步请亲获取到的cookie 是Set-Cookie:black_passportid=1; domain=.sogou.com; path=/; expires=Thu, 01-Dec-1994 16:00:00 GMTSUID=6B525165E518920A0000000055FB834D; expires=Thu, 13-Sep-35 03:21:49 GMT; domain=weixin.sogou.com; path=/IPLOC=CN3100; expires=Sat, 17-Sep-16 03:21:49 GMT; domain=.sogou.com; path=/SNUID=0930320663667D9F6B2F40B163E33CC3; expires=Mon, 28-Sep-15 03:21:49 GMT; domain=.sogou.com; path=/ABTEST=0|1442546509|v1; expires=Sun, 18-Oct-15 03:21:49 GMT; path=/
萌啦,进入相关文章详情时怎么带上cookie ,带上啦我这里老是包网页已经过期,求解。

<!doctype html>
<html>
<head>
<title>搜狗微信搜索</title>
<style>.topqc{font-size:14px;margin-bottom:17px}.topqc a{text-decoration:underline}</style>
</head><body>
<div class="topqc"><strong>当前请求已过期</strong>,<a id="reload" href="http://weixin.sogou.com">请点击重新加载</a></div>
<script>
var a = document.getElementById("reload");
a.onclick = function() {
(new Image()).src = 'http://pb.sogou.com/pv.gif?uigs_productid=weixin&type=article&status=fail';
}
</script>

</body>
</html>
null
...全文
955 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
打杂人 2016-01-28
  • 打赏
  • 举报
回复
引用 4 楼 v714822329 的回复:
不用带上一页的cookie /websearch/art.jsp?sg= 有自己的cookie 带自己的就可以了 或着 把上一页的cookie和本页的cookie 一起带上就可以了
兄台,你实现啦?还是没看明白,能否给点深入的提示,php下用什么来实现 cookie ?
打杂人 2016-01-28
  • 打赏
  • 举报
回复
引用 3 楼 qq_21019419 的回复:
[quote=引用 2 楼 aerchi 的回复:] 我也是遇到楼主相同的问题,以前抓取挺好的, 直接到拿到文章地址 。 weixin.sogou.com 刚改过版本后,取到的都是 /websearch/art.jsp?sg=... 开头的,组装成网址提交 http://weixin.sogou.com/websearch/art.jsp?sg=CBf80b2xkgZO1hP0Fb1mi4_pzl-9ftwHyRk2Yg8qBN00w1KJF3TpUc0CenfWbhlql0Ok9Bj2mo6NMUZucz4Gweerw7iX14-n-VclBWmN0LFh-e37jNhdQw..&url=p0OVDH8R4SHyUySb8E88hkJm8GF_McJfBfynRTbN8wg56a8LTOzYt2QMI9l8BBv6XY6RLCSg2kSRZPSMglabGmQ3JxMQ3374f85hAwQx39zi7EM0SNt8KHhfFMIZb07td9Csb0RLwMNYy-5x5In7jJFmExjqCxhpkyjFvwP6PuGcQ64lGQ2ZDMuqxplQrsbk 提示 "当前请求已过期,请点击重新加载", 绕不过去,哎。
我也遇到了/websearch/art.jsp?sg=这个问题,你解决了么? 我看又一篇文章写的是通过桌面程序模拟请求.好像是实现了的, http://blog.csdn.net/cwwwcc/article/details/48913821 但是不知道是不是java写的.[/quote] 其它通过java 很好实现的,jsp 主机很少啊,还贵。我就是想找php的实现方法,可惜还没找到。。
天星龙月 2016-01-27
  • 打赏
  • 举报
回复
不用带上一页的cookie /websearch/art.jsp?sg= 有自己的cookie 带自己的就可以了 或着 把上一页的cookie和本页的cookie 一起带上就可以了
林子曰 2015-11-10
  • 打赏
  • 举报
回复
引用 2 楼 aerchi 的回复:
我也是遇到楼主相同的问题,以前抓取挺好的, 直接到拿到文章地址 。 weixin.sogou.com 刚改过版本后,取到的都是 /websearch/art.jsp?sg=... 开头的,组装成网址提交 http://weixin.sogou.com/websearch/art.jsp?sg=CBf80b2xkgZO1hP0Fb1mi4_pzl-9ftwHyRk2Yg8qBN00w1KJF3TpUc0CenfWbhlql0Ok9Bj2mo6NMUZucz4Gweerw7iX14-n-VclBWmN0LFh-e37jNhdQw..&url=p0OVDH8R4SHyUySb8E88hkJm8GF_McJfBfynRTbN8wg56a8LTOzYt2QMI9l8BBv6XY6RLCSg2kSRZPSMglabGmQ3JxMQ3374f85hAwQx39zi7EM0SNt8KHhfFMIZb07td9Csb0RLwMNYy-5x5In7jJFmExjqCxhpkyjFvwP6PuGcQ64lGQ2ZDMuqxplQrsbk 提示 "当前请求已过期,请点击重新加载", 绕不过去,哎。
我也遇到了/websearch/art.jsp?sg=这个问题,你解决了么? 我看又一篇文章写的是通过桌面程序模拟请求.好像是实现了的, http://blog.csdn.net/cwwwcc/article/details/48913821 但是不知道是不是java写的.
打杂人 2015-09-30
  • 打赏
  • 举报
回复
我也是遇到楼主相同的问题,以前抓取挺好的, 直接到拿到文章地址 。 weixin.sogou.com 刚改过版本后,取到的都是 /websearch/art.jsp?sg=... 开头的,组装成网址提交 http://weixin.sogou.com/websearch/art.jsp?sg=CBf80b2xkgZO1hP0Fb1mi4_pzl-9ftwHyRk2Yg8qBN00w1KJF3TpUc0CenfWbhlql0Ok9Bj2mo6NMUZucz4Gweerw7iX14-n-VclBWmN0LFh-e37jNhdQw..&url=p0OVDH8R4SHyUySb8E88hkJm8GF_McJfBfynRTbN8wg56a8LTOzYt2QMI9l8BBv6XY6RLCSg2kSRZPSMglabGmQ3JxMQ3374f85hAwQx39zi7EM0SNt8KHhfFMIZb07td9Csb0RLwMNYy-5x5In7jJFmExjqCxhpkyjFvwP6PuGcQ64lGQ2ZDMuqxplQrsbk 提示 "当前请求已过期,请点击重新加载", 绕不过去,哎。
wula0010 2015-09-21
  • 打赏
  • 举报
回复
用httpclient,会自动替你保管cookie的

50,533

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧