社区
Java EE
帖子详情
heritrix中怎么设置只抓取文本数据,不抓取其它数据
dreamw
2009-12-13 10:04:18
比如不抓取图片、MP3、软件等等,我只要HTLM的文本数据。
现在heritrix什么链接都抓取下来,呵呵,请问在哪里有设置,我找不到。
...全文
306
6
打赏
收藏
heritrix中怎么设置只抓取文本数据,不抓取其它数据
比如不抓取图片、MP3、软件等等,我只要HTLM的文本数据。 现在heritrix什么链接都抓取下来,呵呵,请问在哪里有设置,我找不到。
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
dreamw
2009-12-14
打赏
举报
回复
。。。。。。。。。。。
当然是爬前过滤掉。呵呵,花这么多的时间去下载,又花时间去删除干嘛。
crazylaa
2009-12-14
打赏
举报
回复
噢,你是想抓取之前就过滤掉啊?那可能得改你抓文件得那个机器人程序了。
我以为你抓下来之后,把不想要得删掉呢
dreamw
2009-12-14
打赏
举报
回复
兄弟,怎么过滤,是要修改源代码,还是直接在WEB页面里配置?
dreamw
2009-12-14
打赏
举报
回复
呃尔陀佛,善哉善哉。。。我再等等,如果没有好的方法,我就结贴啦。。。
crazylaa
2009-12-14
打赏
举报
回复
[Quote=引用 4 楼 dreamw 的回复:]
。。。。。。。。。。。
当然是爬前过滤掉。呵呵,花这么多的时间去下载,又花时间去删除干嘛。
[/Quote]
啊哈,准备改程序吧。
crazylaa
2009-12-13
打赏
举报
回复
可以过滤掉不想要的标签。
网络爬虫
Heritrix
1.14.4可直接用
10. **与其他工具集成**:
Heritrix
可以与其他
数据
分析、
文本
挖掘工具集成,如Apache Nutch、Solr、Hadoop等,实现更复杂的网络
数据
处理流程。 总结来说,
Heritrix
1.14.4是一个功能丰富的网络爬虫工具,它的模块化...
Heritrix
+Lucene搜索例子
要将
Heritrix
抓取
的
数据
导入Lucene,你需要创建一个`IndexWriter`实例,
设置
好相应的索引参数,然后逐条处理
Heritrix
输出的
数据
,将每条记录转化为`Document`对象,并添加到索引
中
。`Document`对象可以包含多个`...
lucene_
heritrix
搜索引擎
Lucene负责高效地索引和搜索
文本
数据
,而
Heritrix
则负责
抓取
和存储网络资源。FMPP作为辅助工具,可能用于自动化生成项目
中
的模板文件。这三者结合,可以实现从互联网
数据
中
获取信息的全链条处理,从
抓取
到索引,再到...
开发自己的搜索引擎 lucene +
heritrix
在这个过程
中
,Lucene 和
Heritrix
是两个非常关键的工具,它们分别在搜索引擎的构建
中
扮演着不同的角色。 首先,Lucene 是一个基于 Java 的开源信息检索库,它为开发者提供了一系列用于构建搜索引擎的工具和接口。...
heritrix
系统使用.ppt
例如,你可以使用正则表达式来限定
抓取
的URL模式,确保只
抓取
特定类型的
文本
内容。此外,通过调整`Profiles`
中
的`max-delay-ms`、`min-delay-ms`、`max-retries`和`retry-delay-seconds`等
设置
,可以优化爬取速度,...
Java EE
67,549
社区成员
225,860
社区内容
发帖
与我相关
我的任务
Java EE
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
复制链接
扫一扫
分享
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章