用java抓取网页，为什么用下面的代码总是抓不全？就是网页只能抓到一半这样子。

yuguangchan 2012-03-18 12:21:50

这个是我用的方法~
1. URL url = new URL(myurl);
2.
3. BufferedReader br = new BufferedReader(newInputStreamReader(url.openStream()));
4.
5. String s = "";
6.
7. StringBuffer sb = new StringBuffer("");
8.
9. while ((s = br.readLine()) != null) {
10.
11. i++;
12.
13. sb.append(s+"\r\n");
14.
15. }

...全文

205 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

yuguangchan 2012-03-18

打赏
举报

回复

我查看了抓取网页的源码，我随意抓取了一个网页，抓取了37行，38行以后的跟前面能够抓取的没什么区别，都是有换行的~

会不会是大小的问题？当网页大到一定程度就中断抓取？？

caeser1234 2012-03-18

打赏
举报

回复

readLine()需要等待结束符吧，比如\r\n
有时候不一定有

yuguangchan 2012-03-18

打赏
举报

回复

[Quote=引用 3 楼 leehomwong 的回复:]

不会的，可以抓的全
[/Quote]
楼上你测试过？？？我试过把直接把内容输出到命令行或者是输出到一个txt文件。

但是结果都是不完整的。。

24K純帥 2012-03-18

打赏
举报

回复

不会的，可以抓的全

本课程使用java作为编程语言，主要内容包括爬虫的基本原理，使用Phantomjs技术抓取拉钩企业招聘信息进行系统分析、Phantomjs的详细使用方法，如何使用Phantomjs分析html代码，基于队列的爬虫、数据存储、数据拆分、...

我命由我不由天，我今天就自己来试试看，看看Java写个爬虫是有多费劲？看懂的朋友别忘记给我个哈，毕竟我是堵上了咱们Java程序员的在奋战！...看到网上很多的爬虫代码都是基于的，那作为一名的我就有点不服气了，...

实现电影资讯微信订阅号Java开发。...1. 利用Fidder抓包工具，通过手机代理抓取ONE电影请求； 2. 使用jackson解析json数据，分析并提取有用信息； 3. 使用微信后台框架，匹配关键字，回复图文列表。

利用Fiddler手机抓包对ONE APP网页爬虫实现电影资讯微信Java开发

1、面向对象的特征有哪些方面？封装/多态/继承/抽象.封装给对象提供了隐藏内部特性和行为的能力。...下面列出了使用封装的一些好处：通过隐藏对象的属性来保护对象内部的状态。提高了代码的可用性和可维...

62,615

社区成员

307,307

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章