网页信息抽取

sling2007 2008-07-18 05:25:32
用java写的抽取一个网站信息的代码,为什么读取网页源代码的时候,第一个字符读不出来呢
如<html>读出来的是html> </div> 读出来是 /div>
显示html代码 部分的java代码是:

URL testURL = new URL(url);
URLConnection connection = testURL.openConnection();
connection.connect();

InputStream urlStream = connection.getInputStream();
BufferedReader urlreader = new BufferedReader(new InputStreamReader(urlStream));

while(urlreader.read() > 0){
String str = urlreader.readLine();
System.out.println(str);
}
...全文
187 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
rascalboy520 2008-07-18
  • 打赏
  • 举报
回复
urlreader.read() > 0
改为:
urlreader.read() != -1
xcehn 2008-07-18
  • 打赏
  • 举报
回复
你已经在while里把这个字符read了.....
老紫竹 2008-07-18
  • 打赏
  • 举报
回复
String str = null;
while((str=urlreader.readLine())!=null){
System.out.println(str);
}


你的read已经把第一个字符读走了。呵呵
lovingprince 2008-07-18
  • 打赏
  • 举报
回复
因为 < 是一个特殊字符。

62,615

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧