用java抓取网页,为什么用下面的代码总是抓不全?就是网页只能抓到一半这样子。

yuguangchan 2012-03-18 12:21:50
这个是我用的方法~
1. URL url = new URL(myurl);
2.
3. BufferedReader br = new BufferedReader(newInputStreamReader(url.openStream()));
4.
5. String s = "";
6.
7. StringBuffer sb = new StringBuffer("");
8.
9. while ((s = br.readLine()) != null) {
10.
11. i++;
12.
13. sb.append(s+"\r\n");
14.
15. }
...全文
205 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
yuguangchan 2012-03-18
  • 打赏
  • 举报
回复
我查看了抓取网页的源码,我随意抓取了一个网页,抓取了37行,38行以后的跟前面能够抓取的没什么区别,都是有换行的~

会不会是大小的问题?当网页大到一定程度就中断抓取??
caeser1234 2012-03-18
  • 打赏
  • 举报
回复
readLine()需要等待结束符吧,比如\r\n
有时候不一定有
yuguangchan 2012-03-18
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 leehomwong 的回复:]

不会的,可以抓的全
[/Quote]
楼上你测试过???我试过把直接把内容输出到命令行或者是输出到一个txt文件。

但是结果都是不完整的。。
24K純帥 2012-03-18
  • 打赏
  • 举报
回复
不会的,可以抓的全

62,615

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧