lucene paoding庖丁解牛对单个的汉字搜索、拆分问题(在开一帖)

ladybirds2008 2010-03-03 09:18:22
问题,lucene paoding 庖丁解牛 可以对单个的汉字搜索吗?可以对单个汉字拆分吗?对单个汉字的索引搜索最好用哪个啊?就是说单个的汉字搜索如何做到最好啊?有什么方法没有啊?望给予支持。有实例的朋友还望贴一下大家共同学习下 或发我邮箱:gao.guangpei@zte.com.cn或ggp123@126.com 非常感谢啦。。。朋友们帮顶啊 。。谢谢
...全文
286 26 打赏 收藏 转发到动态 举报
写回复
用AI写文章
26 条回复
切换为时间正序
请发表友善的回复…
发表回复
wzjmjx 2010-08-06
  • 打赏
  • 举报
回复
苦阿 这个地方对这个明白到多了 我文了几次这样到问题就是没人回答
luozhangwen 2010-05-19
  • 打赏
  • 举报
回复
[Quote=引用 24 楼 luozhangwen 的回复:]
[/Quote]f
luozhangwen 2010-05-19
  • 打赏
  • 举报
回复
[Quote=:]
[/Quote]f
ladybirds2008 2010-03-11
  • 打赏
  • 举报
回复
还是的 挺闹心的。。。。
ladybirds2008 2010-03-05
  • 打赏
  • 举报
回复
引用 21 楼 icy_csdn 的回复:
呵呵,
1. 建立“字”拆分对照表;如”研“对应,”石“、”开“;
2. 自己写个analyzer或filter,逐个汉字过滤,遇每个汉字时,在对应表中搜索,把搜索到的汉字索引;具体搜索对应表时,可以用lucene或采用直接加载到内存中会获得更好的性能,这个可以参考庖丁解牛、imdict等;
一语道破重点啊。。。受教。。。
icy_csdn 2010-03-05
  • 打赏
  • 举报
回复
呵呵,
1. 建立“字”拆分对照表;如”研“对应,”石“、”开“;
2. 自己写个analyzer或filter,逐个汉字过滤,遇每个汉字时,在对应表中搜索,把搜索到的汉字索引;具体搜索对应表时,可以用lucene或采用直接加载到内存中会获得更好的性能,这个可以参考庖丁解牛、imdict等;

ladybirds2008 2010-03-04
  • 打赏
  • 举报
回复
朋友门不要吝啬啊 不回答问题也要 帮顶一下哦 谢谢啦
ladybirds2008 2010-03-04
  • 打赏
  • 举报
回复
引用 13 楼 feegle_develop 的回复:
楼主的结贴率太低了
已经飘红了咧
友情帮顶,呵呵
都是这几天 的帖 还没有来的急 结贴呢 呵呵


帮顶啊 朋友门
ladybirds2008 2010-03-04
  • 打赏
  • 举报
回复
引用 19 楼 icy_csdn 的回复:
引用 12 楼 ladybirds2008 的回复:我主要是要做到 能拆单个的汉字,能拆开汉字来检索,这样就能更全面的检索到目标啊,就像检索上面的那个“研”字。

明白你的意思,但我比较难理解什么业务会让你有这样的需求。
如果一段文字中有“研”字,那你通过“古”或“开”搜索到这个内容有什么意义?只会让用户觉得奇怪。
如“研究生考试”,用户搜索“石头”,结果搜索出来了。有什么意义么?

如果你需要做一个汉字拆解的业务,如通过“偏部首”搜索到,那你需要建立一个对应库。
我的需求是很奇怪,,但是我想做到最好,能拆字 索引。。
icy_csdn 2010-03-04
  • 打赏
  • 举报
回复
引用 12 楼 ladybirds2008 的回复:
我主要是要做到 能拆单个的汉字,能拆开汉字来检索,这样就能更全面的检索到目标啊,就像检索上面的那个“研”字。


明白你的意思,但我比较难理解什么业务会让你有这样的需求。
如果一段文字中有“研”字,那你通过“古”或“开”搜索到这个内容有什么意义?只会让用户觉得奇怪。
如“研究生考试”,用户搜索“石头”,结果搜索出来了。有什么意义么?

如果你需要做一个汉字拆解的业务,如通过“偏部首”搜索到,那你需要建立一个对应库。
autocomplete 2010-03-04
  • 打赏
  • 举报
回复
我顶死呢 顶顶顶顶顶顶顶顶顶顶顶顶顶
lvxiao715 2010-03-04
  • 打赏
  • 举报
回复
楼主的结贴率太低了
已经飘红了咧
友情帮顶,呵呵
ladybirds2008 2010-03-04
  • 打赏
  • 举报
回复
引用 15 楼 ladybirds2008 的回复:
朋友门不要吝啬啊 不回答问题也要 帮顶一下哦 谢谢啦
f
icy_csdn 2010-03-03
  • 打赏
  • 举报
回复
补充一句,没用过paoding, 不知道会把“生产和服务“分成什么样,也许是
生产 和 服务
生产 和服 服务

需要你试试了。不过好的分词算法是很复杂的。
icy_csdn 2010-03-03
  • 打赏
  • 举报
回复
中文分词主要目的,一是为了更加准确的搜索,二是为了减少索引文件的大小而加快搜索速度。
举例说明:生产和服务
分词后:生产 服务
1. 准确:搜索生产,服务时,都能够正常搜索。要不搜索"和服“时也会匹配,这样的搜索是没有意义的;
2. 单字搜索:搜索”生“”产“”和“”服“”务“,好像意义不大,匹配程序不好。当然分词后根据搜索不到;
3. 如果确实需要这种搜索,那不要用分词。直接使用lucene自带的,CJK就好。是单字拆分,也注是每一个汉字都是一个词。这样就能满足你通过单字的搜索。
但会产生几个问题,1是搜索匹配可能不好,2是搜索速度会慢 3是索引文件很大。
读易的庄稼人 2010-03-03
  • 打赏
  • 举报
回复
帮顶>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
ladybirds2008 2010-03-03
  • 打赏
  • 举报
回复
朋友们如果 你不了解lucene 也要帮顶一下啊,你也可以在这里学到很多啊 谢谢啦 路过的朋友们!!!!!帮顶啊!!!11
feegle_develop 2010-03-03
  • 打赏
  • 举报
回复
楼主的结贴率太低了
已经飘红了咧
友情帮顶,呵呵
ladybirds2008 2010-03-03
  • 打赏
  • 举报
回复
引用 2 楼 xiaozejun 的回复:
过来帮顶
顺便请问一下 回复别人的帖子 是怎么绕过那个长度验证的
直接空回复也行啊

哈哈秘密 你引用别人的就行啦
xiaozejun 2010-03-03
  • 打赏
  • 举报
回复
过来帮顶
顺便请问一下 回复别人的帖子 是怎么绕过那个长度验证的
直接空回复也行啊
加载更多回复(6)

67,513

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧