关于哈希表的容量

netxuning 2007-06-28 04:53:02

在一个程序里的哈希表实现中，哈希表的大小取决于一组质数：

const int primes[] =
{
13, 19, 29, 41, 59, 79, 107, 149, 197, 263, 347, 457, 599, 787, 1031,
1361, 1777, 2333, 3037, 3967, 5167, 6719, 8737, 11369, 14783,
19219, 24989, 32491, 42257, 54941, 71429, 92861, 120721, 156941,
204047, 265271, 344857, 448321, 582821, 757693, 985003, 1280519,
1664681, 2164111, 2813353, 3657361, 4754591, 6180989, 8035301,
10445899, 13579681, 17653589, 22949669, 29834603, 38784989,
50420551, 65546729, 85210757, 110774011, 144006217, 187208107,
243370577, 316381771, 411296309, 534685237, 695090819, 903618083,
1174703521, 1527114613, 1837299131, 2147483647
};

哈希表每增一次容量，都是取该质数表中最相近的质数.
我的疑问是，为什么要根据这些质数取？这些质数是怎么算出来的？有什么科学依据？

...全文

1369 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

lisatisfy 2010-09-25

打赏
举报

回复

看星星来了。。。。

netxuning 2007-06-29

打赏
举报

回复

太感谢了
不过还有一个疑问：就是关于这些质数的选取，为什么是13，19，29...
中间的17, 23等没有选取,我想知道的是，选择这些特定的质数有什么特定的依据？根据什么数学算法？

smartcatiboy 2007-06-29

打赏
举报

回复

对于采用模除法的hash表构造，桶大小取质数，或者桶不被10以下的质数整除，可以保证hash表冲突最小。

wtk0802 2007-06-29

打赏
举报

回复

哈息表大小为素数在理论上是有依据的，针对不同的哈希算法有不同的证明。例如，对于平方探测法，有如下定理：如果使用平方探测，且表大小是素数，那么当表至少有一半是空的时候，总能够插入一个新的元素。

证明时候需要用到素数这个性质，详细可以参看《数据结构与算法分析-C语言描述》

smartcatiboy 2007-06-29

打赏
举报

回复

选这些是应该是效率问题把，避免计算或选择全部质数。间隔多少是个人喜好。

至于数学原理，刚刚翻了几本大学时候的书，上面写“经验得到”，估计是太深奥了～～

修正一下，D的大小应该是质数或者不被“20”以下质数整除的最合适。

「已注销」 2007-06-29

打赏
举报

回复

哈希表的大小取决于一组质数,原因是在hash函数中,你要用这些质数来做模运算(%).
而分析发现,如果不是用质数来做模运算的话,很多生活中的数据分布,会集中在某些点上.
所以这里最后采用了质数做模的除数.

因为用质数做了模的除数,自然存储空间的大小也用质数了.因为模完之后,数据是在[0-所选质数)之间.

「已注销」 2007-06-29

打赏
举报

回复

我想可能是考虑数据的增量吧,数据量越大,每次增加的数据可能就越多,所以开始是13,19(每次增加5)，后面慢慢变成一次增加10几，20几。

这种特性和vector的自动增加容量的方式也是一样的。

lucianren 2007-06-28

打赏
举报

回复

应该是与HASH算法有关，做映射时，被映谢空间大小是质数。

哈希表的查找过程和造表过程基本一致：根据给定的关键字key，用该表对应的哈希函数求得哈希地址，判断该地址的记录与key是否相同。若不相同，则用此哈希表处理冲突的方法来找到下一个哈希地址，直到哈希地的记录为空或者找到与key值相同的记录为止。以开放定址等方法处理冲突的哈希表的查找算法//开放定址哈希表的存储结构//哈希表容量递增表，素数序列typedef struct Elemtype //数据元素类型定义//关键字int a;//其他数据int b;

可以遍历哈希表的下一个位置，直到找到一个空闲的桶或者达到了某个停止条件（如哈希表已满），然后将冲突的元素插入或查找位置。装填因子用来衡量哈希表的填充程度，即哈希表中已经存储的元素在哈希表容量中所占的比例。当装填因子超过某个阈值时，通常会触发哈希表的扩容操作，重新调整哈希表的容量，以保持装填因子在一个合适的范围内。链地址法(Chainin):即在哈希表中使用链表来存储冲突的元素，同一个哈希值对应的元素被存储到同一个桶中的链表上。如果发生冲突，在哈希表的桶中进行第一次探索，计算第一步探索的步长。

一.什么是哈希表 散列表（Hash table，也叫哈希表），是根据键（Key）而直接访问在内存存储位置的数据结构。也就是说，它通过计算一个关于键值的函数，将所需查询的数据映射到表中一个位置来访问记录，这加快了查找速度。这个映射函数称做散列函数（哈希函数），存放记录的数组称做散列表。二.哈希表本质 哈希表其实是一种数据结构 哈希表本质上是个数组，底层实现是在数组上然后在加工，称 哈希表。 1.实现哈希表的方式分为: 数组+链表数组+二叉树 2....

最近我在做一个项目，其中要用到一个数据结构――Hash Table（哈希表），以前只有理论知识，现在实却发现很不简单，所以写下来和大家共分享。我们知道，哈希表是一个固定大小的数组，数组的每个元素是一个链表（单向或双向）的头指针。如果Key一样，则在一起，如果Key不一样，则不在一起。哈希表的查询是飞快的。因为它不需要从头搜索，它利用Key的“哈希算法”直接定位，查找非常快，各种数据库中的

哈希表也是一种存储信息的结构，他是通过映射数据本身从而得到一个“影子位置”，该“影子位置”就是哈希表中存储该数据的位置，因此哈希表的优势在于查找数据时，并不会像其他顺序结构、树结构一样，将要查找的数据和载体中的数据直接比较，而是根据数据找到其在哈希表中的映射位置，然后直接用下标访问哈希表的映射位置，让数据与此位置的值进行对比即可。

70,024

社区成员

243,260

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章