关于分词搜索

tankejin 2005-10-11 02:36:46
请问各位有没有人做过分词搜索?描述如下:

在一个字符串中自动提取符合中文语法规则的词,
比如:提取出“我们的物品”中 “我们”和“物品”两个词?
有哪些方法可以实现?或者哪里有类似的源码?

谢谢!
...全文
195 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
qaqaqa 2006-01-16
  • 打赏
  • 举报
回复
up
skycuilin 2006-01-12
  • 打赏
  • 举报
回复
一般情况下都是使用词库,但是对于一些新词的识别性不好,可以看一些车东和田春锋的文章,他们在这一领域都有所研究.田春锋好象有一篇关于新词识别的文章忘记什么名字了,不过去他的blog应该可以看到.
一般情况下自己做分词和搜索方面的算法实现上比较困难,可以参详一下国外的开源搜索引擎lucene,不过只有两个版本java和.net 版,现在net版已经商业化了,还可以去海量科技看一下他们开发的分词,现在他们提供分词的研究版源码,不过是c版的看以看下开发方法与算法,中搜就是用他们的分词组件.
qaqaqa 2006-01-12
  • 打赏
  • 举报
回复
www.hvsoft.com

可能这个正是你想要的。。。。。

可以自定义搜索显示结构。。加亮。。自动分词
zhuowei 2005-10-15
  • 打赏
  • 举报
回复
踩个脚印 我不会
tankejin 2005-10-15
  • 打赏
  • 举报
回复
组件是从网上找的,已经被编译成DLL了
kao2005 2005-10-13
  • 打赏
  • 举报
回复
你那组件中的文件是不是放在同一目录?
tankejin 2005-10-11
  • 打赏
  • 举报
回复
找到一个中文分词的组件,CSW splitword,但是不能使用,出错。
按照其说明的方法操作,

Set SearchString = Server.CreateObject("Splitword.Split")
response.write SearchString.SplitWord("鸳鸯的公司", "evaluate",0)

运行时报错:
请检查分词组件中的文件有无损坏或丢失!!! 错误代码:CSW8001104

有人用过的请指教下,怎么会这样呢?
tankejin 2005-10-11
  • 打赏
  • 举报
回复
放在数据库里?中国那么多汉字和词语,那不是N多个词?速度不慢吗?
还有,您说的把汉字转换成拼音效率会高很多?道理何在?这样重复的词语不是很多?
jspadmin 2005-10-11
  • 打赏
  • 举报
回复
我朋友做个类似的东西,他当时是将词语放在数据库里,客户提交“我们的物品”时,会先取出头两个字“我们”,然后在数据库里搜索,匹配,就把字符串切断,接着做类似的搜索,同时,搜索字符串中的“的”“地”等字,在“的”字前后把字符串切成两串,大概是这么弄的。建议实际要做时,最好先把汉字转换成拼音再做,效率会高很多

28,406

社区成员

发帖
与我相关
我的任务
社区描述
ASP即Active Server Pages,是Microsoft公司开发的服务器端脚本环境。
社区管理员
  • ASP
  • 无·法
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧