Lucene 中文分词的问题(中文加数字)

向日葵的种籽 2014-01-06 04:32:13
我使用的的java Lucene3.6 自带的StandardAnalyzer对中文分词。
主要对数据库名字字段做索引,
现在发现一个问题:
例如:影讯131226葛优喜剧-幕后巧匠笑中带泪-活着
影讯13-911北美票房星际传奇3霸气登顶
上面几个名字,我用Lucene搜索“ 影讯13”智能收到 —— 影讯13-911北美票房星际传奇3霸气登顶
这是为什么,感觉是分词器的问题,但是怎么解决,求大神指点。
如果能完美的解决我再加分。
...全文
270 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
向日葵的种籽 2014-01-08
  • 打赏
  • 举报
回复
引用 5 楼 zuoziji_lj 的回复:
就 [quote=引用 4 楼 xiaoxiaosu_37 的回复:] [quote=引用 2 楼 zuoziji_lj 的回复:] 没看懂你的问题。中文分词需要不停更新词库才可以保证分词的准确性,比如“131226”在葛优电影出来后就可以算一个词
我用想全部收到,但是只搜索出来了“影讯13-911北美票房星际传奇3霸气登顶”这个,感觉也是分词器的问题,吧“131226”当成了一个,怎么改可以吧两个全部搜出来呢?[/quote]就把“影讯”当一个词,两个就可以出来了[/quote] 我想解决搜索“影讯13”不能搜索出来的这个问题,不是就用“影讯”搜索........
卡卡吉利 2014-01-08
  • 打赏
  • 举报
回复
引用 4 楼 xiaoxiaosu_37 的回复:
[quote=引用 2 楼 zuoziji_lj 的回复:] 没看懂你的问题。中文分词需要不停更新词库才可以保证分词的准确性,比如“131226”在葛优电影出来后就可以算一个词
我用想全部收到,但是只搜索出来了“影讯13-911北美票房星际传奇3霸气登顶”这个,感觉也是分词器的问题,吧“131226”当成了一个,怎么改可以吧两个全部搜出来呢?[/quote]就把“影讯”当一个词,两个就可以出来了
卡卡吉利 2014-01-07
  • 打赏
  • 举报
回复
没看懂你的问题。中文分词需要不停更新词库才可以保证分词的准确性,比如“131226”在葛优电影出来后就可以算一个词
coolbamboo2008 2014-01-07
  • 打赏
  • 举报
回复
有一个中文的分词器叫庖丁 网上能搜到
向日葵的种籽 2014-01-07
  • 打赏
  • 举报
回复
引用 2 楼 zuoziji_lj 的回复:
没看懂你的问题。中文分词需要不停更新词库才可以保证分词的准确性,比如“131226”在葛优电影出来后就可以算一个词
我用想全部收到,但是只搜索出来了“影讯13-911北美票房星际传奇3霸气登顶”这个,感觉也是分词器的问题,吧“131226”当成了一个,怎么改可以吧两个全部搜出来呢?

50,527

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧