网页信息抽取

sling2007 2008-07-18 05:25:32

用java写的抽取一个网站信息的代码，为什么读取网页源代码的时候，第一个字符读不出来呢
如<html>读出来的是html> </div> 读出来是 /div>
显示html代码部分的java代码是：

URL testURL = new URL(url);
URLConnection connection = testURL.openConnection();
connection.connect();

InputStream urlStream = connection.getInputStream();
BufferedReader urlreader = new BufferedReader(new InputStreamReader(urlStream));

while(urlreader.read() > 0){
String str = urlreader.readLine();
System.out.println(str);
}

...全文

187 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

rascalboy520 2008-07-18

打赏
举报

urlreader.read() > 0
改为：
urlreader.read() ！＝－1

xcehn 2008-07-18

打赏
举报

你已经在while里把这个字符read了.....

老紫竹 2008-07-18

打赏
举报

String str = null;

while((str=urlreader.readLine())!=null){ 

  System.out.println(str); 

}

你的read已经把第一个字符读走了。呵呵

lovingprince 2008-07-18

打赏
举报

因为 < 是一个特殊字符。

网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具 java网页信息抽取工具

本方法中用到了网页分析器htmlparser,采用Java语言编程，工具是eclipse。可以实现把正文放在table结点的HTML网页的正文信息抽取功能。

UCI网页信息抽取技术，是一种适用于亿级数量的智能网页信息抽取技术，主要适用于互联网信息整合和搜索引擎中网页信息的提取。该项技术采取的是标识提取，即操作人员只需在网页中标识一下要提取的内容即可。操作便捷，维护简单，准确率高，所以非常适用于超大规模的网页提取。其主要特点有：　　1：操作便捷：不使用网页代码，只需在需要提取的内容处做标识即可。　　2：准确率高：采用标识自动定位技术，即使

梅雪,程学旗,郭岩,张刚,丁国栋. 一种全自动生成网页信息抽取Wrapper的方法. 中文信息学报, 2008年22卷1期.（第三届全国信息检索与内容安全学术会议(NCIRCS2007)，苏州）摘　　要:Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计...

⬆⬆⬆ 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！在网页中抽取结构化信息是一种非常重要的知识获取（Knowledge Discvoery）方式。为了构建一个领域的知识图谱...

Java SE

62,615

社区成员

307,318

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章