heritrix中怎么设置只抓取文本数据,不抓取其它数据

dreamw 2009-12-13 10:04:18
比如不抓取图片、MP3、软件等等,我只要HTLM的文本数据。
现在heritrix什么链接都抓取下来,呵呵,请问在哪里有设置,我找不到。
...全文
306 6 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
dreamw 2009-12-14
  • 打赏
  • 举报
回复
。。。。。。。。。。。
当然是爬前过滤掉。呵呵,花这么多的时间去下载,又花时间去删除干嘛。
crazylaa 2009-12-14
  • 打赏
  • 举报
回复
噢,你是想抓取之前就过滤掉啊?那可能得改你抓文件得那个机器人程序了。
我以为你抓下来之后,把不想要得删掉呢
dreamw 2009-12-14
  • 打赏
  • 举报
回复
兄弟,怎么过滤,是要修改源代码,还是直接在WEB页面里配置?
dreamw 2009-12-14
  • 打赏
  • 举报
回复
呃尔陀佛,善哉善哉。。。我再等等,如果没有好的方法,我就结贴啦。。。
crazylaa 2009-12-14
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 dreamw 的回复:]
。。。。。。。。。。。
当然是爬前过滤掉。呵呵,花这么多的时间去下载,又花时间去删除干嘛。
[/Quote]

啊哈,准备改程序吧。
crazylaa 2009-12-13
  • 打赏
  • 举报
回复
可以过滤掉不想要的标签。

67,549

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧