请大家看我结合Lucene做的电影搜索引擎

nethermit 2006-10-08 09:31:46
并非广告贴,主要是想和大家讨论技术。
地址 http://search.mdbchina.com

核心是Lucene 2.0,中文分词是我自己搞得,分词算法也是我自己独创的,有拼音搜索,兼容繁体中文搜索,错别字纠正,有搜索建议,还有相关搜索功能列出相关搜索关键词。

我自己搞的分词主要有一下一些类
ChineseAnalyzer: 不是Lucene文档里的那个,是我自己堆出来的
ChineseTokenizer: 不是Lucene文档里的那个,我自己整的分词器
ChineseTokenizerConstants: 一看便知
ChineseTokenizerTokenManager: 对StandardTokenizerTokenManager的“补丁”
ChineseSimplificationFilter: 繁体转简体过滤器

我没有使用公认的模式,即:中文分词->******Analyzer,我选择了更为底层的方法,创新出我自己的ChineseAnalyzer,请各位高人试用。
...全文
679 17 打赏 收藏 转发到动态 举报
写回复
用AI写文章
17 条回复
切换为时间正序
请发表友善的回复…
发表回复
YuLimin 2006-12-28
  • 打赏
  • 举报
回复
不错,怎么不Share一些心得出来呢?:)
lengweipingsw 2006-10-31
  • 打赏
  • 举报
回复

lengweipingsw@hotmail.com
给我一份谢谢拉!
yougucao379548695 2006-10-09
  • 打赏
  • 举报
回复
liuguangshui@163.com

给我一份谢谢拉!
iwlk 2006-10-08
  • 打赏
  • 举报
回复
ChineseSimplificationFilter: 繁体转简体过滤器

请问LZ,如何判断字符是 "简体"还是"繁体"???


-----------------
www.ruansou.com 小第做的搜索引擎
numen_wlm 2006-10-08
  • 打赏
  • 举报
回复
挺强的!
qinqinxiatiao 2006-10-08
  • 打赏
  • 举报
回复
好想能拜读一下楼主的CODE呀!
cnyxlxw 2006-10-08
  • 打赏
  • 举报
回复
http://jf.jf.cn
zghmu007 2006-10-08
  • 打赏
  • 举报
回复
不错啊 帮顶上去
nethermit 2006-10-08
  • 打赏
  • 举报
回复
年份,演员,导演,片商,类型这些已经在搜索之列,搜索引擎会自动判断,如果输入2006就列出2006年上映的影片,如果输入梁朝伟就列出梁师傅的电影,如果输入动作片就列出所有动作片,导演,片商都是类似的
nethermit 2006-10-08
  • 打赏
  • 举报
回复
拼音搜索也很重要,演员名字拗口很常见,这个时候输入拼音就可以定位到他
shine333 2006-10-08
  • 打赏
  • 举报
回复
不错,不过从纯粹业务的角度,那个拼音搜索似乎没有必要,不如添加年份,演员,导演,片商,类型之类的选项
china2001ok 2006-10-08
  • 打赏
  • 举报
回复
very good!
zuguanqun 2006-10-08
  • 打赏
  • 举报
回复
恩不错,帮顶一下
TinyJimmy 2006-10-08
  • 打赏
  • 举报
回复
做得不错, 速度挺快的
kinsey0514 2006-10-08
  • 打赏
  • 举报
回复
up
konj 2006-10-08
  • 打赏
  • 举报
回复
好,鼓励
nethermit 2006-10-08
  • 打赏
  • 举报
回复
有一个字典,大概两千多个字而已

81,095

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧