爬虫提取网页上的数据

chensugang 2008-07-15 09:44:43

爬虫提取网页上的数据谢谢,重谢,有解决方法马上结贴

...全文

198 14 打赏收藏转发到动态举报

写回复

用AI写文章

14 条回复

切换为时间正序

请发表友善的回复…

发表回复

penghao122 2008-07-22

打赏
举报

呵呵。。学习下

小雨转晴 2008-07-16

打赏
举报

lz 还没满意贴哦帮lz再顶起来呵呵

魔鬼代言人5800 2008-07-15

打赏
举报

是做搜索还是采集
搜索用LUCENE
采集用HTTPCLIENT

chensugang 2008-07-15

打赏
举报

有没有那位大哥能提供一个例子学习一下啊
谢谢

CSDN_0 2008-07-15

打赏
举报

网络爬虫,不停的在网络上爬，然后建立索引你搜索的时候是到索引库中去找的，直接根绝关键词找到相应的索引.

兴趣可以看一下Lucene(Java的，相应的有Lucene.NET)

happy08_xhx 2008-07-15

打赏
举报

[Quote=引用 3 楼 forerver121 的回复:]
首先你得先控制你要截取的东西.标题,内容,,作者...
然后你得根据不同的网站定义不同的截取方法,,必然xx网的标题前是 <div class=title>这是标题 </div>
那么你的标题截取就应该从 <div class=title>开始.... </div>结束...其实爬虫就是一个过滤的过程,,
看你如何过滤了
[/Quote]

主要是过滤，一般的用正则可以做到了

forerver121 2008-07-15

打赏
举报

首先你得先控制你要截取的东西.标题,内容,,作者...
然后你得根据不同的网站定义不同的截取方法,,必然xx网的标题前是<div class=title>这是标题</div>
那么你的标题截取就应该从<div class=title>开始....</div>结束...其实爬虫就是一个过滤的过程,,
看你如何过滤了