爬虫提取网页上的数据

chensugang 2008-07-15 09:44:43
爬虫提取网页上的数据 谢谢,重谢,有解决方法马上结贴
...全文
198 14 打赏 收藏 转发到动态 举报
写回复
用AI写文章
14 条回复
切换为时间正序
请发表友善的回复…
发表回复
penghao122 2008-07-22
  • 打赏
  • 举报
回复
呵呵。。学习下
小雨转晴 2008-07-16
  • 打赏
  • 举报
回复
lz 还没满意贴哦 帮lz再顶起来 呵呵
  • 打赏
  • 举报
回复
是做搜索还是采集
搜索用LUCENE
采集用HTTPCLIENT
chensugang 2008-07-15
  • 打赏
  • 举报
回复
有没有那位大哥能提供一个例子学习一下啊
谢谢
CSDN_0 2008-07-15
  • 打赏
  • 举报
回复
网络爬虫,不停的在网络上爬,然后建立索引你搜索的时候是到索引库中去找的,直接根绝关键词找到相应的索引.

兴趣可以看一下Lucene(Java的,相应的有Lucene.NET)
happy08_xhx 2008-07-15
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 forerver121 的回复:]
首先你得先控制你要截取的东西.标题,内容,,作者...
然后你得根据不同的网站定义不同的截取方法,,必然xx网的标题前是 <div class=title>这是标题 </div>
那么你的标题截取就应该从 <div class=title>开始.... </div>结束...其实爬虫就是一个过滤的过程,,
看你如何过滤了
[/Quote]

主要是过滤,一般的用正则可以做到了
forerver121 2008-07-15
  • 打赏
  • 举报
回复
首先你得先控制你要截取的东西.标题,内容,,作者...
然后你得根据不同的网站定义不同的截取方法,,必然xx网的标题前是<div class=title>这是标题</div>
那么你的标题截取就应该从<div class=title>开始....</div>结束...其实爬虫就是一个过滤的过程,,
看你如何过滤了
cuilike 2008-07-15
  • 打赏
  • 举报
回复
顶~~~
dengfeiling 2008-07-15
  • 打赏
  • 举报
回复
到网上搜索一下,一大堆出来~~~
小雨转晴 2008-07-15
  • 打赏
  • 举报
回复
mark 顶lz 高手来答
forerver121 2008-07-15
  • 打赏
  • 举报
回复
http://www.locoy.com/locoy/2008/0123/down-55.html这是一个很好的采集器..你可以下下来用用..看看人家是怎么做的
jf..
jf
jf
jf.......................
shenxiaolei123 2008-07-15
  • 打赏
  • 举报
回复
java有个htmlPase类可以很方便的操作网页数据
给你个地址 自己看吧
http://hi.baidu.com/shenxiaolei_it/blog/item/bd41f3fb78f913126d22eb50.html
sdc_java 2008-07-15
  • 打赏
  • 举报
回复
LUCENE是做搜索的,你可以用下开源的Heritrix是目前我认为最强大的爬虫,你可以下载下来,自己看看,还可以自己写方法通过正则表达式截取
网面的东西

67,513

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧