再次请教和辞典查找有关的算法问题？

marmoset 2001-03-06 01:52:00

假如有一段中文文本，和一个现成的词典。现在想把文本中所包含的所有词汇（本着最大匹配的原则）都找出来，应该采用什么样的查找方法效率最佳？
相应的词典数据结构又应该如何排列？按照词频？还是别的什么关键值？

/********************************************************************
ed9er(始祖鸟)　回复于2001-3-6 12:41:00 得30分
词典用hash表，首字为索引，项的内容里包含权值（可能就是字数）
查找的时候应该要设一个最大长度，譬如5字，然后每做一个字取当前几种可能里面的最大值
譬如“开水龙头”，先做“开”，取到“开水”，然后做“水”，取到“水龙头”，后面一个是三字的，用它，就得到“水龙头”
/********************************************************************

感谢ed9er。
再问一问各位DX？词典究竟采用哈希还是平衡二叉树（红黑二叉树）更合理呢？
文本的子串匹配和词典的查找应该如何组合效率才最好？
并且，如果文本是中英文混排的，又需要考虑什么问题呢？
不知道哪里能找到相类似的程序代码可供研究。

...全文

142 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

在当今竞争激烈的 IT 行业，数据结构与算法是技术岗位面试的核心考察内容。掌握经典算法的面试秘籍，能够帮助求职者在面试中...同时，也会涉及面试中的常见问题和应对策略，以及相关的学习资源和工具推荐。背景介绍。

前言 p12 ① 数据类型介绍中，增加了C99扩充的双长整型(long long int)、复数浮点型(float complex,double complex ,long ...数据类型都整不明白，还谈什么语言、算法呢？ C99并没有要求main函数的类型一律指定为int型

本文代码实现基本按照《数据结构》课本目录顺序，外加大量的复杂算法实现，一篇文章足够。能换你一个收藏了吧？

昨天向在百度的LY师兄请教了一下二面会问的问题，他说算法才是王道。也知道了一面那JJ是师兄的导师，二面将会是个经理。于是乎晚上突击算法，结果用到的微乎其微……结果二面的问题比较综合（见后），还和一面有重复...

学位论文的材料准备 所谓材料，就是为科学研究和论文写作的需要而搜集的一系列事实和事理。撰写学位论文，首先要占有丰富的材料，这是科研和...一个人读的书越多、查找的资料越全面，专业水平就越高，创造性的思考可

数据结构与算法

33,028

社区成员

35,336

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章