社区
下载资源悬赏专区
帖子详情
中文分词特殊算法下载
weixin_39821746
2019-09-01 04:30:17
描述了高效的进行中文分词的好算法,采用VSM算法进行分词,效率高,匹配度强。
相关下载链接:
//download.csdn.net/download/wangderong1234/6889757?utm_source=bbsseo
...全文
4
回复
打赏
收藏
中文分词特殊算法下载
描述了高效的进行中文分词的好算法,采用VSM算法进行分词,效率高,匹配度强。 相关下载链接://download.csdn.net/download/wangderong1234/6889757?utm_source=bbsseo
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
中文分词
特殊
算法
描述了高效的进行
中文分词
的好
算法
,采用VSM
算法
进行分词,效率高,匹配度强。
java实现
中文分词
simhash
算法
simhash
算法
对字符串计算权重时,对中文要做
特殊
操作,及先分词,请自行
下载
sanford
中文分词
jar包及
中文分词
库
隐马尔科夫
算法
:
中文分词
神器
本课程首先以一个简单的应用案例介绍了隐马尔科夫
算法
和隐马尔科夫能解决的三类问题,并构造隐马尔科夫五元组。由此引出了隐马尔科夫分词
算法
,并以分词实际应用为例,介绍了隐马尔科夫分词
算法
的整个逻辑包括参数矩阵如何训练。同时演示并提供了隐马尔科夫分词的源码。在课程最后介绍了两种其他类型的分词
算法
并类比于隐马尔科夫介绍了
算法
的优缺点。
中文分词
学习版
此为学习版,请勿用于商业用途或扩散。 以下描述转至互联网。 ============== 一、CSW中分词组件简介 CSW
中文分词
组件,是一套可自动将一段文本按常规汉语词组进行拆分,并以指定方式进行分隔的COM组件。本组件采用独有的高效的分词引擎及拆分
算法
,具有准确、高速、资源占用率小等特点。为了满足客户对文本语义进行研究分析的需要,本组件同时提供词性及词频标注功能,可根据用户要求,对其拆分后的词组进行词性标注或词频标注。互联网信息检索、数据库信息查询、智能聊天机器人、文本校对、自动翻译、 自动摘要、自动分类及信息加工处理等各个领域。 二、本组件特点: 1.适应性强 本组全部件采用ANSI标准C++开发,可广泛应用于当今的操作系统平台上,如:MS Windows、Linux及其它各公司出品的Unix操作系统。 2. 支持范围广 在MS Windows平台下,本组件以COM接口的DLL格式进行封装,可支持所有支持COM接口调用的编程语言及脚本语言。如:PHP、JSP、ASP、ASP.net、C/C++ 、VC6.0 、VC.net、BC、C#、VB6.0 、VB.net、Delphi、Java等。 3. 响应速度快 由于本组件采用高效
特殊
的
算法
引擎结构,每秒钟拆分可达数万字汉语文本,在对搜索关键词进行拆分情况下,其响应时间均在数毫秒之内,为搜索提供强劲动力。 4. 词组识别准确率高 采用
特殊
的词组拆分识别
算法
,可有效消除汉语词组中汉语歧义,并可识别各个行业内的
特殊
用语、专用词汇、公司名、地名等,并具有汉语成语、汉语短语识别功能。如:'醉翁之意不在酒'。经长期使用及大量文本测试其准确率可达到92%以上。 5. 拆分覆盖面广 含盖了IT、化工、金融、贸易、纺织、电子、制造、冶金等各行各业以及日常生活用语中的汉语词组。 6. 提供词组自定义功能 可根据用户需要自行添加汉语词组,并提单个汉字添加或从文件批量添加功能。 7.
特殊
字符过滤功能 可根据用户需要自行定义影响检索结果的不必要的字符。如:! % *等。 9. 具有英文分词识别功能。 本组件同时具有英文单词的分词识别功能。 10. 词性标注功能。(限企业A版) 词性:即词组在汉语语言中所表述的性质。如:计算机 /名词; 中国 / 名词,方位词 此功能可对拆分出的汉语词组进行词性标注,辅以开发人员理解分析文本序列中所包含的语义或意图。其广泛应用于互联网信息搜索以提高搜索精度、智能聊天机器人理解对方话语的含义等领域。整个分词标注以北京大学词性标注集为标准。(详细可参见词性标注表) 11. 词频标注功能。(限企业B版) 词频:即词组在广域的所有汉语词组中出现的相对频率值。 此功能可对拆分出的汉语词组进行词频标识。为开发人员在对搜索关键词的理解分析上提供有效的参考,以提高检索精度。整个词频标识是以各大报刊媒体文章为基础,经过精心的统计分析制作而成,具有相当的参考价值。 三、在线演示/免费
下载
在线演示:http://61.129.81.124/csw/csw50.asp 四、各语言调用示例代码 参数一:InputString[string类型] 需进行分词的原始文本 参数二:OutputType[int整型] 输出类型 (0 标准分词输出, 1 附带词性输出, 2 附带词频输出) 参数三:DllPath[string类型] 本组件在系统中的完整路径 返回:OutputString[string类型] 输出分词后的文本序列 1. C#调用示例代码 首先运行本组件包中的install.bat文件,在系统中注册本组件。 然后在开发工具中引用CSW.dll组件 //以下为C#控制台应用程序中调用本组件示例代码. CSWLib.SplitWordClass csw = new CSWLib.SplitWordClass(); string text = csw.Split('待拆分原始文本',0,@'c:winntsystem'); Console.WriteLine(text); Console.ReadLine(); //暂停,查看输出 访问官方网站获得更多代码示例。
ACWPS(爱博汉语分词系统)分词组件 asp分词组件
爱博汉语分词系统Web服务器支持标准的HTTP协议,可以跨平台调用,支持分布式运算; 爱博汉语分词系统COM组件提供COM和DLL接口(Windows环境) 以及共享库.so(Linux)形式,可支持所有支持COM接口调用的编程语言及脚本语言。 如:PHP、JSP、ASP、ASP.net、C/C++ 、VC6.0 、VC.net、BC、C#、VB6.0 、VB.net、Delphi、Java等。 爱博汉语分词系统支持自定义词语的功能,用户可根据自己需要定义添加汉语词组。 可根据需要自行定义影响检索结果的不必要的
特殊
字符,如:“%,*,&,的,啊,http,www”等。 爱博汉语分词系统同时具有英文单词的分词识别功能。 爱博汉语分词系统具有强大的词性标注的词性查询功能。可以将一句话中每个词语在这句话中的意思标注出来;可以通过词语查询接口,查询一个词语的所有可能出现的词性 软件系统采用ANSI标准C++开发,可广泛应用于Linux和Win32等操作系统平台。 爱博汉语分词系统采用高效
特殊
的
算法
引擎结构,每秒钟拆分可达数万字中文文本(具体根据计算机性能而定。),在对搜索关键词进行拆分情况下,其响应时问均在数毫秒之内,为搜索提供强劲动力。 采用
特殊
的词组拆分识别
算法
,可有效消除汉语词组中汉语歧义,并可识别各个行业内的
特殊
用语、专用词汇、公司名、地名等,并具有汉语成语、汉语短语识别功能。 ACWPS含盖了IT、化工、金融、贸易、纺织、电子、制造、冶金等各行各业以及日常生活用语中的汉语词组。 可自行定义干扰字、无意义字、敏感词过滤列表。如:啊、唉、个、了等无意义的以及煸动、反动、黄色和侵害他人的汉字、词组及英文。 本人已经测试可用。 注意两点: 1、没有注册的版本只支持25个字以内的分词。 2、必须安装在C盘默认的路径下才能使用
下载资源悬赏专区
12,889
社区成员
12,442,932
社区内容
发帖
与我相关
我的任务
下载资源悬赏专区
CSDN 下载资源悬赏专区
复制链接
扫一扫
分享
社区描述
CSDN 下载资源悬赏专区
其他
技术论坛(原bbs)
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章