大家来讨论算法,大批量同义词替换的思路,想听听各高手的建议。

didibaba 2009-12-27 11:20:59
需求:对一篇文章内容进行同义词替换,生成一篇新的文章,对语义无需求。
1、假设有一个同义词库(数量级6万左右)
2、一个高性能的中文分词工具

想请大家帮帮忙整理一个效率最高的替换思路,请高手踊跃发言:D
...全文
770 16 打赏 收藏 转发到动态 举报
写回复
用AI写文章
16 条回复
切换为时间正序
请发表友善的回复…
发表回复
x15104572541 2012-05-16
  • 打赏
  • 举报
回复
[Quote=引用楼主 的回复:]
需求:对一篇文章内容进行同义词替换,生成一篇新的文章,对语义无需求。
1、假设有一个同义词库(数量级6万左右)
2、一个高性能的中文分词工具

想请大家帮帮忙整理一个效率最高的替换思路,请高手踊跃发言:D
[/Quote]

楼主,这个东西的代码能跟我共享一下吗。现在做设计需要这个类似的功能
idaydayup 2011-06-23
  • 打赏
  • 举报
回复
[Quote=引用 12 楼 didibaba 的回复:]
具体的需求就是这样:我在做一个伪原创的工具,就是把别人的文章通过同义词替换,让搜索引擎误认为我的文章是原创。

我的思路写成个大概的逻辑代码,方便大家理解!
Hashtable 同义词库 = 初始化同义词库();
ArrayList KeyWords = 分词工具.分词(文章的内容);

foreach(string keyWord in KeyWords )
{
if(同义词……
[/Quote]
我也是这么做的 不知道有更好的方法吗
ProjectDD 2009-12-27
  • 打赏
  • 举报
回复
那你这个属于“敏感触发” 你伪代码写得明白,只要词集里有敏感的词就会导致被替换

最后输出一篇被替换的文章是吧,你这个代码已经够简单的了,你的意思是还要增加效率?

我觉得难度最大的地方,就是百度打的那个 广告所说的,“领先的中文分词技术” 这个如果你都

可以搞定,那后面的工作 就象你的伪码那样了,如果再想增加运行效率,就只有考虑并行 计算了

比如把 Words分成4块同时 搜索,同时替换什么的。。。

-----------
wuyq11 2009-12-27
  • 打赏
  • 举报
回复
通过regex替换
lucence.net 就是不错的分词组件,还有ICTCLAS分词系统
http://topic.csdn.net/u/20091028/13/df7cd47d-0f30-4361-9695-a6aa547b8d7a.html
didibaba 2009-12-27
  • 打赏
  • 举报
回复
具体的需求就是这样:我在做一个伪原创的工具,就是把别人的文章通过同义词替换,让搜索引擎误认为我的文章是原创。

我的思路写成个大概的逻辑代码,方便大家理解!
Hashtable 同义词库 = 初始化同义词库();
ArrayList KeyWords = 分词工具.分词(文章的内容);

foreach(string keyWord in KeyWords )
{
if(同义词库.ContainsKey(keyWord ))
{
文章.Replace(keyWord,同义词库[keyWord]);
}
}
silentwins 2009-12-27
  • 打赏
  • 举报
回复
我也没理解,楼主应该搞个例子
ProjectDD 2009-12-27
  • 打赏
  • 举报
回复
等于你有个同义词库, 我还是没搞懂你怎么个替换法,是找到敏感词就随便找个替换吗?还是
发现文章中有相同义的重词以后再把其中之一替换掉
didibaba 2009-12-27
  • 打赏
  • 举报
回复
呵呵,来者有分啊,下午接。
didibaba 2009-12-27
  • 打赏
  • 举报
回复
然后是想按照文章内容词级的长度逐一查找对应长度的同义词库。先从长的开始替换起,这样语义对应会稍微好一点。
悔说话的哑巴 2009-12-27
  • 打赏
  • 举报
回复
按需分
悔说话的哑巴 2009-12-27
  • 打赏
  • 举报
回复
一般能用就OK了
ProjectDD 2009-12-27
  • 打赏
  • 举报
回复
中文分词,将文章 转换为词集,然后再词集中查找同义词是吧

然后呢?
didibaba 2009-12-27
  • 打赏
  • 举报
回复
或者有什么好的库,大家可以推荐给在下:D
didibaba 2009-12-27
  • 打赏
  • 举报
回复
高效,要高效的思路!
didibaba 2009-12-27
  • 打赏
  • 举报
回复
先说说我自己目前的思路:
1、首先将同义词库整理成一个一对多的Hash对象(HashA),如:
词 同义词List
阿谀奉承 攀龙趋凤,阿谀奉迎,趋炎附势
矮个子 小矮个
.
.
.

2、用中文分词工具将文章内容分词
假设一篇文章共分出500个词

3、循环文章中分出的500个词,HashA中查找是否有相关的同义词,有则替换
十八道胡同 2009-12-27
  • 打赏
  • 举报
回复
先分词然后替换
1.算法是程序的灵魂,优秀的程序在对海量数据处理时,依然保持高速计算,就需要高效的数据结构和算法支撑。2.网上数据结构和算法的课程不少,但存在两个问题:1)授课方式单一,大多是照着代码念一遍,数据结构和算法本身就比较难理解,对基础好的学员来说,还好一点,对基础不好的学生来说,基本上就是听天书了2)说是讲数据结构和算法,但大多是挂羊头卖狗肉,算法讲的很少。 本课程针对上述问题,有针对性的进行了升级 3)授课方式采用图解+算法游戏的方式,让课程生动有趣好理解 4)系统全面的讲解了数据结构和算法, 除常用数据结构和算法外,还包括程序员常用10大算法:二分查找算法(非递归)、分治算法、动态规划算法、KMP算法、贪心算法、普里姆算法、克鲁斯卡尔算法、迪杰斯特拉算法、弗洛伊德算法、马踏棋盘算法。可以解决面试遇到的最短路径、最小生成树、最小连通图、动态规划等问题及衍生出的面试题,让你秒杀其他面试小伙伴3.如果你不永远都是代码工人,就需要花时间来研究下数据结构和算法。教程内容:本教程是使用Java来讲解数据结构和算法,考虑到数据结构和算法较难,授课采用图解加算法游戏的方式。内容包括: 稀疏数组、单向队列、环形队列、单向链表、双向链表、环形链表、约瑟夫问题、栈、前缀、中缀、后缀表达式、中缀表达式转换为后缀表达式、递归与回溯、迷宫问题、八皇后问题、算法的时间复杂度、冒泡排序、选择排序、插入排序、快速排序、归并排序、希尔排序、基数排序(桶排序)、堆排序、排序速度分析、二分查找、插值查找、斐波那契查找、散列、哈希表、二叉树、二叉树与数组转换、二叉排序树(BST)、AVL树、线索二叉树、赫夫曼树、赫夫曼编码、多路查找树(B树B+树和B*树)、图、图的DFS算法和BFS、程序员常用10大算法、二分查找算法(非递归)、分治算法、动态规划算法、KMP算法、贪心算法、普里姆算法、克鲁斯卡尔算法、迪杰斯特拉算法、弗洛伊德算法马踏棋盘算法。学习目标:通过学习,学员能掌握主流数据结构和算法的实现机制,开阔编程思路,提高优化程序的能力。

110,535

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧