社区
Java EE
帖子详情
heritrix中怎么设置只抓取文本数据,不抓取其它数据
dreamw
2009-12-13 10:04:18
比如不抓取图片、MP3、软件等等,我只要HTLM的文本数据。
现在heritrix什么链接都抓取下来,呵呵,请问在哪里有设置,我找不到。
...全文
312
6
打赏
收藏
heritrix中怎么设置只抓取文本数据,不抓取其它数据
比如不抓取图片、MP3、软件等等,我只要HTLM的文本数据。 现在heritrix什么链接都抓取下来,呵呵,请问在哪里有设置,我找不到。
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
dreamw
2009-12-14
打赏
举报
回复
。。。。。。。。。。。
当然是爬前过滤掉。呵呵,花这么多的时间去下载,又花时间去删除干嘛。
crazylaa
2009-12-14
打赏
举报
回复
噢,你是想抓取之前就过滤掉啊?那可能得改你抓文件得那个机器人程序了。
我以为你抓下来之后,把不想要得删掉呢
dreamw
2009-12-14
打赏
举报
回复
兄弟,怎么过滤,是要修改源代码,还是直接在WEB页面里配置?
dreamw
2009-12-14
打赏
举报
回复
呃尔陀佛,善哉善哉。。。我再等等,如果没有好的方法,我就结贴啦。。。
crazylaa
2009-12-14
打赏
举报
回复
[Quote=引用 4 楼 dreamw 的回复:]
。。。。。。。。。。。
当然是爬前过滤掉。呵呵,花这么多的时间去下载,又花时间去删除干嘛。
[/Quote]
啊哈,准备改程序吧。
crazylaa
2009-12-13
打赏
举报
回复
可以过滤掉不想要的标签。
网络爬虫
Heritrix
1.14.4可直接用
在/
Heritrix
1/src/org/archive/crawler/
Heritrix
.java启动之后,访问https://localhost:8089登录admin密码admin直接用
Heritrix
+Lucene搜索例子
lucene
Heritrix
lucene_
heritrix
搜索引擎
lucene_
heritrix
搜索引擎 很好的东西来看看吧
开发自己的搜索引擎 lucene +
heritrix
综合各项技术构建了一个典型的垂直搜索系统,具有很强的商业使用价值。
heritrix
系统使用.ppt
heritrix
系统使用、一个ppt 介绍
heritrix
的基本概念、以及原理知识
Java EE
67,543
社区成员
225,859
社区内容
发帖
与我相关
我的任务
Java EE
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
复制链接
扫一扫
分享
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章