高分求教Solr实现自动聚类!!!!高手进!!

leeking888 2010-12-30 02:43:16
使用nutch爬取网页,然后把数据发送到Solr中建立索引,并提供查询。

question:在solr中如何在对网页内容进行索引的时候,把在内容中出现词频最多的词组进行归类。

注意:在solr中有carrot2的自动聚类插件,但是那个得要有特征这个字段才可以
(<str name="carrot.snippet">features</str>)
,也就是说提前先把文章分好类了,但是从nutch爬取回来的网页却是没有经过分类的,所以想要解决这个问题。

所以我的想法是在solr进行索引的时候找出文章中词频达到一定量的文章,然后放到一个字段里面。就可以使用carrot来进行聚类了。但是不知道该在哪一步进行操作和操作的细节...请高手指教!!!
...全文
719 13 打赏 收藏 转发到动态 举报
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
Captain-船长 2013-06-28
  • 打赏
  • 举报
回复
帖子有点就远了,我最近在搞solr的自动聚类,在一篇文章找出出现次数最多的词,我可以找出来,但是不知道怎么聚类
seai 2012-07-12
  • 打赏
  • 举报
回复
朋友请问你solr中聚类标签如何生成的原理,能解释一下吗?
The bot 2011-10-02
  • 打赏
  • 举报
回复
最近也在研究nutch聚类的问题,我的想法是再term的索引上建立一个二级的类别索引,还在试验阶段,希望多多交流
leeking888 2010-12-31
  • 打赏
  • 举报
回复
[Quote=引用 8 楼 zn85600301 的回复:]
引用 6 楼 leeking888 的回复:

无言等待中...

你在CSDN上 或者JAVAEYE上问solr是白问 什么都问不出来的
你去QQ上 搜SOLR群 和搜索引擎群吧

我确实纳闷你用了nutch 为什么还要用solr去建索引
我只用solr做了简单的分布式搜索
关于词频和分词 没研究过 爱莫能助呀···
[/Quote]

使用Nutch主要是爬取网页的内容,然后进行索引到solr中。Nutch的查询感觉没solr好..
今天看了几下,有一个新的想法,就是在nutch中增加一个keywords的字段,然后把html里面的
<meta name="keywords" value="" />的值放到里面去..但是不知道在nutch的哪里切入 
zn85600301 2010-12-31
  • 打赏
  • 举报
回复
[Quote=引用 6 楼 leeking888 的回复:]

无言等待中...
[/Quote]
你在CSDN上 或者JAVAEYE上问solr是白问 什么都问不出来的
你去QQ上 搜SOLR群 和搜索引擎群吧

我确实纳闷你用了nutch 为什么还要用solr去建索引
我只用solr做了简单的分布式搜索
关于词频和分词 没研究过 爱莫能助呀···
k10509806 2010-12-31
  • 打赏
  • 举报
回复
使用lucene可以用一些开源的分词工具,比如庖丁解牛
leeking888 2010-12-31
  • 打赏
  • 举报
回复
无言等待中...
leeking888 2010-12-30
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 dyllove98 的回复:]
用过lucene没用过Solr,帮你顶下吧
[/Quote]
请问使用lucene怎么样进行分词并且记录词频呢??
Jlins 2010-12-30
  • 打赏
  • 举报
回复
用过lucene没用过Solr,帮你顶下吧
feixiaocaohen 2010-12-30
  • 打赏
  • 举报
回复
不是高手,义务帮顶
leeking888 2010-12-30
  • 打赏
  • 举报
回复
无言等待中...
nicesmil3 2010-12-30
  • 打赏
  • 举报
回复
虽然不知道这到底是什么,但是路过顶了,围观等学习

67,513

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧