请教一个关于nutch的简单问题!

xieyunchao 2010-11-04 09:54:56
现在我已经把nutch部署到我的j2ee项目里,但是按照需求,用户是可以维护入口网址和过滤网址的,也就是说,我要用做一个模块给终端用户用,用户可以添加多个和删除多个nutch起始搜索的网址。

我该怎么做呢?

我这里有一个想法但不成熟:
[nutch]#bin/nutch crawl urls -dir crawl.demo -depth 2 -threads 4 -topN 50 >& crawl.log

在上面的这个命令中,urls是一个目录,里面有一个文件(多个文件可以吗?crawl会搜索这下面所有的文件中的地址码?)用来记录入口地址的网址的,那么当用户维护入口网址的时候我就对应的在urls目录里生成或删除带有网页地址信息的文件。那么当运行crawl命令抓取网页的时候,会把URL下面的所有文件中的网页地址作为入口地址,这个想法好吗?这样做有什么问题吗?

关于过滤地址,crawl-urlfilter.txt 中有记录,当用户维护过滤地址的时候,我要操作这个文本文件吗?这样不方便吧!


有相关经验的还请赐教!
多谢!
...全文
174 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
旷逍遥 2012-04-01
  • 打赏
  • 举报
回复
写个程序直接操作文件吧
wen691 2012-04-01
  • 打赏
  • 举报
回复
多个文件可以吗?crawl会搜索这下面所有的文件中的地址码?

这个你多放个文件,试下就知道了,比如一个文件里放www.baidu.com,另一个放www.sina.com.cn,搜索一下看看就知道了。没去试,感觉肯定可以的。

nutch是通过命令来运行的,感觉只能这样直接操作配置文件

scofic 2010-11-04
  • 打赏
  • 举报
回复
坐等高人回答问题

67,515

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧