社区
C#
帖子详情
大家来讨论算法,大批量同义词替换的思路,想听听各高手的建议。
didibaba
2009-12-27 11:20:59
需求:对一篇文章内容进行同义词替换,生成一篇新的文章,对语义无需求。
1、假设有一个同义词库(数量级6万左右)
2、一个高性能的中文分词工具
想请大家帮帮忙整理一个效率最高的替换思路,请高手踊跃发言:D
...全文
770
16
打赏
收藏
大家来讨论算法,大批量同义词替换的思路,想听听各高手的建议。
需求:对一篇文章内容进行同义词替换,生成一篇新的文章,对语义无需求。 1、假设有一个同义词库(数量级6万左右) 2、一个高性能的中文分词工具 想请大家帮帮忙整理一个效率最高的替换思路,请高手踊跃发言:D
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
16 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
x15104572541
2012-05-16
打赏
举报
回复
[Quote=引用楼主 的回复:]
需求:对一篇文章内容进行同义词替换,生成一篇新的文章,对语义无需求。
1、假设有一个同义词库(数量级6万左右)
2、一个高性能的中文分词工具
想请大家帮帮忙整理一个效率最高的替换思路,请高手踊跃发言:D
[/Quote]
楼主,这个东西的代码能跟我共享一下吗。现在做设计需要这个类似的功能
idaydayup
2011-06-23
打赏
举报
回复
[Quote=引用 12 楼 didibaba 的回复:]
具体的需求就是这样:我在做一个伪原创的工具,就是把别人的文章通过同义词替换,让搜索引擎误认为我的文章是原创。
我的思路写成个大概的逻辑代码,方便大家理解!
Hashtable 同义词库 = 初始化同义词库();
ArrayList KeyWords = 分词工具.分词(文章的内容);
foreach(string keyWord in KeyWords )
{
if(同义词……
[/Quote]
我也是这么做的 不知道有更好的方法吗
ProjectDD
2009-12-27
打赏
举报
回复
那你这个属于“敏感触发” 你伪代码写得明白,只要词集里有敏感的词就会导致被替换
最后输出一篇被替换的文章是吧,你这个代码已经够简单的了,你的意思是还要增加效率?
我觉得难度最大的地方,就是百度打的那个 广告所说的,“领先的中文分词技术” 这个如果你都
可以搞定,那后面的工作 就象你的伪码那样了,如果再想增加运行效率,就只有考虑并行 计算了
比如把 Words分成4块同时 搜索,同时替换什么的。。。
-----------
wuyq11
2009-12-27
打赏
举报
回复
通过regex替换
lucence.net 就是不错的分词组件,还有ICTCLAS分词系统
http://topic.csdn.net/u/20091028/13/df7cd47d-0f30-4361-9695-a6aa547b8d7a.html
didibaba
2009-12-27
打赏
举报
回复
具体的需求就是这样:我在做一个伪原创的工具,就是把别人的文章通过同义词替换,让搜索引擎误认为我的文章是原创。
我的思路写成个大概的逻辑代码,方便大家理解!
Hashtable 同义词库 = 初始化同义词库();
ArrayList KeyWords = 分词工具.分词(文章的内容);
foreach(string keyWord in KeyWords )
{
if(同义词库.ContainsKey(keyWord ))
{
文章.Replace(keyWord,同义词库[keyWord]);
}
}
silentwins
2009-12-27
打赏
举报
回复
我也没理解,楼主应该搞个例子
ProjectDD
2009-12-27
打赏
举报
回复
等于你有个同义词库, 我还是没搞懂你怎么个替换法,是找到敏感词就随便找个替换吗?还是
发现文章中有相同义的重词以后再把其中之一替换掉
didibaba
2009-12-27
打赏
举报
回复
呵呵,来者有分啊,下午接。
didibaba
2009-12-27
打赏
举报
回复
然后是想按照文章内容词级的长度逐一查找对应长度的同义词库。先从长的开始替换起,这样语义对应会稍微好一点。
悔说话的哑巴
2009-12-27
打赏
举报
回复
按需分
悔说话的哑巴
2009-12-27
打赏
举报
回复
一般能用就OK了
ProjectDD
2009-12-27
打赏
举报
回复
中文分词,将文章 转换为词集,然后再词集中查找同义词是吧
然后呢?
didibaba
2009-12-27
打赏
举报
回复
或者有什么好的库,大家可以推荐给在下:D
didibaba
2009-12-27
打赏
举报
回复
高效,要高效的思路!
didibaba
2009-12-27
打赏
举报
回复
先说说我自己目前的思路:
1、首先将同义词库整理成一个一对多的Hash对象(HashA),如:
词 同义词List
阿谀奉承 攀龙趋凤,阿谀奉迎,趋炎附势
矮个子 小矮个
.
.
.
2、用中文分词工具将文章内容分词
假设一篇文章共分出500个词
3、循环文章中分出的500个词,HashA中查找是否有相关的同义词,有则替换
十八道胡同
2009-12-27
打赏
举报
回复
先分词然后替换
图解Java数据结构和
算法
1.
算法
是程序的灵魂,优秀的程序在对海量数据处理时,依然保持高速计算,就需要高效的数据结构和
算法
支撑。2.网上数据结构和
算法
的课程不少,但存在两个问题:1)授课方式单一,大多是照着代码念一遍,数据结构和
算法
本身就比较难理解,对基础好的学员来说,还好一点,对基础不好的学生来说,基本上就是听天书了2)说是讲数据结构和
算法
,但大多是挂羊头卖狗肉,
算法
讲的很少。 本课程针对上述问题,有针对性的进行了升级 3)授课方式采用图解+
算法
游戏的方式,让课程生动有趣好理解 4)系统全面的讲解了数据结构和
算法
, 除常用数据结构和
算法
外,还包括程序员常用10大
算法
:二分查找
算法
(非递归)、分治
算法
、动态规划
算法
、KMP
算法
、贪心
算法
、普里姆
算法
、克鲁斯卡尔
算法
、迪杰斯特拉
算法
、弗洛伊德
算法
、马踏棋盘
算法
。可以解决面试遇到的最短路径、最小生成树、最小连通图、动态规划等问题及衍生出的面试题,让你秒杀其他面试小伙伴3.如果你不
想
永远都是代码工人,就需要花时间来研究下数据结构和
算法
。教程内容:本教程是使用Java来讲解数据结构和
算法
,考虑到数据结构和
算法
较难,授课采用图解加
算法
游戏的方式。内容包括: 稀疏数组、单向队列、环形队列、单向链表、双向链表、环形链表、约瑟夫问题、栈、前缀、中缀、后缀表达式、中缀表达式转换为后缀表达式、递归与回溯、迷宫问题、八皇后问题、
算法
的时间复杂度、冒泡排序、选择排序、插入排序、快速排序、归并排序、希尔排序、基数排序(桶排序)、堆排序、排序速度分析、二分查找、插值查找、斐波那契查找、散列、哈希表、二叉树、二叉树与数组转换、二叉排序树(BST)、AVL树、线索二叉树、赫夫曼树、赫夫曼编码、多路查找树(B树B+树和B*树)、图、图的DFS
算法
和BFS、程序员常用10大
算法
、二分查找
算法
(非递归)、分治
算法
、动态规划
算法
、KMP
算法
、贪心
算法
、普里姆
算法
、克鲁斯卡尔
算法
、迪杰斯特拉
算法
、弗洛伊德
算法
马踏棋盘
算法
。学习目标:通过学习,学员能掌握主流数据结构和
算法
的实现机制,开阔编程
思路
,提高优化程序的能力。
同义词
挖掘的一些常用方法 及
同义词
替换
程序
先谈谈
同义词
挖掘的一些常用方法 在用户使用搜索引擎的过程中,由于地区差异、文化水平等差异,用户所输入的query很多时候和资料中的描述不一致。这种情况下,为了能够召回更多的文档向用户展示,搜索引擎需要对用户的输入做
同义词
、纠错、归一化等操作。在进行这些操作的过程中,
同义词
的挖掘是一个基础工作。下面简单介绍一下几个简单实用的
算法
。 词典 从百度词典、金山词霸的词条中抓取数据,根据原词的描述...
同义词
(近义词)
算法
总结(附代码)
一、简介
同义词
挖掘一般有三种
思路
,借助已有知识库,上下文相关性,文本相似度。 1.1 知识库 可以借助已有知识库得到需要
同义词
,比如说《哈工大信息检索研究室
同义词
词林扩展版》和 HowNet,其中《词林》文件数据如下。 Aa01A01= 人 士 人物 人士 人氏 人选 Aa01A02= 人类 生人 全人类 Aa01A03= 人手 人员 人口 人丁 口 食指 Aa01A04= 劳力 劳动...
Python实现
同义词
替换
(哈工大pyltp分词)
问答系统慢慢的成为非常流行且非常实用的应用,成为越来越多的研究者的研究方向。当前问答系统有基于知识库的问答系统,对话系统以及聊天机器人。 在问答系统中,当用户
想
要利用问答系统搜索到与自己提出query相同或相似的问题及其答案时,由于用户输入query都是自己描述的,比较口语化,且有错别字,歧义等,其结构复杂和句式冗长,使得从问句中提取重要关键词项会比较困难(提出的关键词质量不高,词不达意的现...
搜索引擎
算法
之
同义词
、近义词、上位词挖掘
在搜索引擎中,我们会碰到大量的
同义词
需求。用户在描述同一个东西的时候,会有各种各样的描述。 在电商搜索环境中,
同义词
分成好几类: 1. 品牌
同义词
:nokia=诺基亚,Adidas=阿迪达斯 2. 产品
同义词
:投影仪≈投影机,电话≈cell phone;automobile 和car。 3.旧词和新词:自行车 -> 脚踏车 4...
C#
110,535
社区成员
642,577
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章