社区
下载资源悬赏专区
帖子详情
中文分词切分技术研究下载
weixin_39821051
2019-08-02 09:30:24
本文分析了现有的基于词典的分词算法,在比较各种算法优缺点的基础上提出了将正向匹配算法与逆向匹配 算法所得到的结果集进行叠加,生成粗分结果集的新观点,再对生成的粗分结果集构造非负权有向图,最后应用最短路径算法求解有向图。通过Nutch实验验证,该算法较Nutch原始搜索系统提高了其汉语切分的准确性以及切分速度,同时部分解决了交集型歧义切分问题。
相关下载链接:
//download.csdn.net/download/wsde002/4232614?utm_source=bbsseo
...全文
5
回复
打赏
收藏
微信扫一扫
点击复制链接
分享
下载分享明细
分享
举报
写回复
回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
相关推荐
论文
研究
-基于改进最大匹配算法的
中文
分词
粗分方法.pdf
中文
粗分和歧义消解是
中文
分词
的两大基本过程。通过引入广义词条和诱导词集,在最大匹配算法基础上提出一种
中文
分词
的粗分方法,以最长广义词匹配为原则进行
中文
分词
,利用诱导词集实现交叉型歧义识别。在保证快速准确
切分
无歧义汉语语句的同时,100%检测并标记有歧义汉语语句中的交叉型歧义,最大程度上简化后续歧义消解过程。通过对含有160万汉字1998年1月人民日报语料测试的结果证明了算法速度、歧义词准确率以及粗分召回率的有效性。
中文
分词
切分
技术
研究
本文分析了现有的基于词典的
分词
算法,在比较各种算法优缺点的基础上提出了将正向匹配算法与逆向匹配 算法所得到的结果集进行叠加,生成粗分结果集的新观点,再对生成的粗分结果集构造非负权有向图,最后应用最短路径算法求解有向图。通过Nutch实验验证,该算法较Nutch原始搜索系统提高了其汉语
切分
的准确性以及
切分
速度,同时部分解决了交集型歧义
切分
问题。
论文
研究
-综合最大匹配和歧义检测的
中文
分词
粗分方法.pdf
中文
分词
是
中文
文本信息处理的重要预处理。针对目前
中文
分词
中存在的准确率低和粗分结果集大的问题,在最大匹配算法基础上,采用文本
切分
时的组合歧义检测和交叉歧义检测以及全
切分
算法,提高了文本粗分的准确率,并减小了粗分结果集的规模,为进一步正确
分词
奠定基础。通过公共语料库数据集的实验对比,取得很好的效果。
自然语言处理期末复习(2)
中文
分词
1.汉语
分词
:通过计算机程序把组成汉语文本的字串自动转换为词串的过程被称为自动
切分
2.汉语
切分
的原因:(1)语音的合成(2)信息检索(3)词语计量分析3.汉语
分词
基本方法:(1)基于词表的方法(2)字序列标记方法4.最大匹配法:(1) 正向最大匹配法(MM) 从左向右匹配词表(2) 逆向最大匹配法(RMM) 从右向左匹配词表5.歧义的类型(1)交集型歧义:AJ/B、A/JB交集型歧义字段中交集...
一种利用ngram模型来消除歧义的
中文
分词
方法
这里的歧义是指:同样的一句话,可能有两种或者更多的
切分
方法,这些
切分
结果,有的正确,有的不正确。 消除歧义的目的就是从
切分
结果中挑选
切分
正确的。 假设我们要
切分
句子:结婚的和尚未结婚的,使用逆向最大匹配和正向最大匹配算法的结果如下: ? 1 2 逆向最大匹配:[结婚, 的, 和, 尚未, 结婚, 的] 正向最大匹配:[结婚, 的, 和尚, 未结, 婚, 的...
发帖
下载资源悬赏专区
微信扫一扫
点击复制链接
分享社区
下载分享明细
1.0w+
社区成员
1092.6w+
社区内容
CSDN 下载资源悬赏专区
其他
技术论坛(原bbs)
社区管理员
加入社区
帖子事件
创建了帖子
2019-08-02 09:30
社区公告
暂无公告