lucene paoding庖丁解牛对单个的汉字搜索、拆分问题(在开一帖)

ladybirds2008 2010-03-03 09:18:22

问题，lucene paoding 庖丁解牛可以对单个的汉字搜索吗？可以对单个汉字拆分吗？对单个汉字的索引搜索最好用哪个啊？就是说单个的汉字搜索如何做到最好啊？有什么方法没有啊？望给予支持。有实例的朋友还望贴一下大家共同学习下或发我邮箱：gao.guangpei@zte.com.cn或ggp123@126.com 非常感谢啦。。。朋友们帮顶啊。。谢谢

...全文

286 26 打赏收藏转发到动态举报

写回复

用AI写文章

26 条回复

切换为时间正序

请发表友善的回复…

发表回复

wzjmjx 2010-08-06

打赏
举报

苦阿这个地方对这个明白到多了我文了几次这样到问题就是没人回答

luozhangwen 2010-05-19

打赏
举报

[Quote=引用 24 楼 luozhangwen 的回复:]
[/Quote]f

luozhangwen 2010-05-19

打赏
举报

[Quote=:]
[/Quote]f

ladybirds2008 2010-03-11

打赏
举报

还是的挺闹心的。。。。

ladybirds2008 2010-03-05

打赏
举报

引用 21 楼 icy_csdn 的回复:

呵呵，
1. 建立“字”拆分对照表；如”研“对应，”石“、”开“；
2. 自己写个analyzer或filter，逐个汉字过滤，遇每个汉字时，在对应表中搜索，把搜索到的汉字索引；具体搜索对应表时，可以用lucene或采用直接加载到内存中会获得更好的性能，这个可以参考庖丁解牛、imdict等；

一语道破重点啊。。。受教。。。

icy_csdn 2010-03-05

打赏
举报

呵呵，
1. 建立“字”拆分对照表；如”研“对应，”石“、”开“；
2. 自己写个analyzer或filter，逐个汉字过滤，遇每个汉字时，在对应表中搜索，把搜索到的汉字索引；具体搜索对应表时，可以用lucene或采用直接加载到内存中会获得更好的性能，这个可以参考庖丁解牛、imdict等；

ladybirds2008 2010-03-04

打赏
举报

朋友门不要吝啬啊不回答问题也要帮顶一下哦谢谢啦

ladybirds2008 2010-03-04

打赏
举报

引用 13 楼 feegle_develop 的回复:

楼主的结贴率太低了
已经飘红了咧
友情帮顶，呵呵

都是这几天的帖还没有来的急结贴呢呵呵

帮顶啊朋友门

ladybirds2008 2010-03-04

打赏
举报

引用 19 楼 icy_csdn 的回复:

引用 12 楼 ladybirds2008 的回复:我主要是要做到能拆单个的汉字，能拆开汉字来检索，这样就能更全面的检索到目标啊，就像检索上面的那个“研”字。

明白你的意思，但我比较难理解什么业务会让你有这样的需求。
如果一段文字中有“研”字，那你通过“古”或“开”搜索到这个内容有什么意义？只会让用户觉得奇怪。
如“研究生考试”，用户搜索“石头”，结果搜索出来了。有什么意义么？

如果你需要做一个汉字拆解的业务，如通过“偏部首”搜索到，那你需要建立一个对应库。

我的需求是很奇怪，，但是我想做到最好，能拆字索引。。

icy_csdn 2010-03-04

打赏
举报

引用 12 楼 ladybirds2008 的回复:

我主要是要做到能拆单个的汉字，能拆开汉字来检索，这样就能更全面的检索到目标啊，就像检索上面的那个“研”字。

明白你的意思，但我比较难理解什么业务会让你有这样的需求。
如果一段文字中有“研”字，那你通过“古”或“开”搜索到这个内容有什么意义？只会让用户觉得奇怪。
如“研究生考试”，用户搜索“石头”，结果搜索出来了。有什么意义么？

如果你需要做一个汉字拆解的业务，如通过“偏部首”搜索到，那你需要建立一个对应库。

autocomplete 2010-03-04

打赏
举报

我顶死呢顶顶顶顶顶顶顶顶顶顶顶顶顶

lvxiao715 2010-03-04

打赏
举报

楼主的结贴率太低了
已经飘红了咧
友情帮顶，呵呵

ladybirds2008 2010-03-04

打赏
举报

引用 15 楼 ladybirds2008 的回复:

朋友门不要吝啬啊不回答问题也要帮顶一下哦谢谢啦

icy_csdn 2010-03-03

打赏
举报

补充一句，没用过paoding，不知道会把“生产和服务“分成什么样，也许是
生产和服务
生产和服服务

需要你试试了。不过好的分词算法是很复杂的。

icy_csdn 2010-03-03

打赏
举报

中文分词主要目的,一是为了更加准确的搜索，二是为了减少索引文件的大小而加快搜索速度。
举例说明：生产和服务
分词后：生产服务
1. 准确：搜索生产，服务时，都能够正常搜索。要不搜索"和服“时也会匹配，这样的搜索是没有意义的；
2. 单字搜索：搜索”生“”产“”和“”服“”务“，好像意义不大，匹配程序不好。当然分词后根据搜索不到；
3. 如果确实需要这种搜索，那不要用分词。直接使用lucene自带的，CJK就好。是单字拆分，也注是每一个汉字都是一个词。这样就能满足你通过单字的搜索。
但会产生几个问题，1是搜索匹配可能不好，2是搜索速度会慢 3是索引文件很大。