嵌入设备下如何实现快速检索

hqulyc 2008-06-24 04:48:13

前提:嵌入设备,CPU400,每条记录内容为tagData,共有100万甚至更多的记录,

要求:根据关键字检索szText字段,如何做到1s内能完成检索,并返回符合要求的记录.

不涉及数据库,数据自己存在文件里。

typedef struct tagData{
int iTextLen;
int iOtherLen;
char* szText; //关键字
char* szTextSpell;//拼音
char* szDetails;
}Data;

小弟将数据按 Data依次存储完，并根据szText建了一个索引表(大该为1:1)，速度虽然满足了，却也引来了新的问题.
如果我还要在检索Data结构里面的某个字段(如szTextSpell)，又需重新建一个索引,这样容量肯定不满足要求了。

小弟想了很久,始终得不到一个较完美的方法,哪位大虾有接触过此问题的还请指导小弟下，给个思路也行,不甚感激啊.

...全文

78 9 打赏收藏转发到动态举报

写回复

用AI写文章

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

baihacker 2008-06-24

打赏
举报

这个要看你的应用了...检索两个字的范围太广...

你能做到一般的就行了,然后再想办法优化.

如果能做得非常好,进百度或者google.

hqulyc 2008-06-24

打赏
举报

to baihacker:
谢了,毕竟看了书还是要想个方法来解决此问题.不知道有没有思路或方法,还请不吝指导下?

baihacker 2008-06-24

打赏
举报

计算机程序设计艺术

hqulyc 2008-06-24

打赏
举报

TAOCP 是什么呢?书名?

jieao111 2008-06-24

打赏
举报

mar ku

baihacker 2008-06-24

打赏
举报

TAOCP:
第三卷
6.5
反文件
几何数据
复合属性
二进属性
叠加的编码
组合散列
广义的检索结构
平衡的文件方案

自己去看吧...

hqulyc 2008-06-24

打赏
举报

to baihacker:
你发的这篇文章,我看了下，HASH前提是输入的字符串在超级大的字符串数组里必须完全匹配,
而我的检索可能是不完全匹配(可能是子串,也可能是模糊检索),可能是我没描述清楚,

"根据关键字检索szText字段"是指根据输入的关键子去匹配szText字段，包括完全匹配,然也可能是子串或者是模糊匹配。

ooily 2008-06-24

打赏
举报

mark

baihacker 2008-06-24

打赏
举报

来源:http://blog.csdn.net/self_control/archive/2008/06/07/2519908.aspx
先提一个简单的问题，如果有一个庞大的字符串数组，然后给你一个单独的字符串，让你从这个数组中查找是否有这个字符串并找到它，你会怎么做？

有一个方法最简单，老老实实从头查到尾，一个一个比较，直到找到为止，我想只要学过程序设计的人都能把这样一个程序作出来，但要是有程序员把这样的程序交给用户，我只能用无语来评价，或许它真的能工作，但...也只能如此了。

最合适的算法自然是使用HashTable（哈希表），先介绍介绍其中的基本知识，所谓Hash，一般是一个整数，通过某种算法，可以把一个字符串"压缩" 成一个整数，这个数称为Hash，当然，无论如何，一个32位整数是无法对应回一个字符串的，但在程序中，两个字符串计算出的Hash值相等的可能非常小，下面看看在MPQ中的Hash算法

view plaincopy to clipboardprint?
unsigned long HashString(char *lpszFileName, unsigned long dwHashType)
{
unsigned char *key = (unsigned char *)lpszFileName;
unsigned long seed1 = 0x7FED7FED, seed2 = 0xEEEEEEEE;
int ch;

while(*key != 0)
{
ch = toupper(*key++);

seed1 = cryptTable[(dwHashType << 8) + ch] ^ (seed1 + seed2);
seed2 = ch + seed1 + seed2 + (seed2 << 5) + 3;
}
return seed1;
}

unsigned long HashString(char *lpszFileName, unsigned long dwHashType)
{
unsigned char *key = (unsigned char *)lpszFileName;
unsigned long seed1 = 0x7FED7FED, seed2 = 0xEEEEEEEE;
int ch;

while(*key != 0)
{
ch = toupper(*key++);

seed1 = cryptTable[(dwHashType << 8) + ch] ^ (seed1 + seed2);
seed2 = ch + seed1 + seed2 + (seed2 << 5) + 3;
}
return seed1;
}
Blizzard的这个算法是非常高效的，被称为"One-Way Hash"，举个例子，字符串"unitneutralacritter.grp"通过这个算法得到的结果是0xA26067F3。

是不是把第一个算法改进一下，改成逐个比较字符串的Hash值就可以了呢，答案是，远远不够，要想得到最快的算法，就不能进行逐个的比较，通常是构造一个哈希表(Hash Table)来解决问题，哈希表是一个大数组，这个数组的容量根据程序的要求来定义，例如1024，每一个Hash值通过取模运算 (mod)对应到数组中的一个位置，这样，只要比较这个字符串的哈希值对应的位置又没有被占用，就可以得到最后的结果了，想想这是什么速度？是的，是最快的O(1)，现在仔细看看这个算法吧

view plaincopy to clipboardprint?
int GetHashTablePos(char *lpszString, SOMESTRUCTURE *lpTable, int nTableSize)

{
int nHash = HashString(lpszString), nHashPos = nHash % nTableSize;

if (lpTable[nHashPos].bExists && !strcmp(lpTable[nHashPos].pString, lpszString ))
return nHashPos;
else
return -1; //Error value
}

int GetHashTablePos(char *lpszString, SOMESTRUCTURE *lpTable, int nTableSize)

{
int nHash = HashString(lpszString), nHashPos = nHash % nTableSize;

if (lpTable[nHashPos].bExists && !strcmp(lpTable[nHashPos].pString, lpszString ))
return nHashPos;
else
return -1; //Error value
}看到此，我想大家都在想一个很严重的问题："如果两个字符串在哈希表中对应的位置相同怎么办？",毕竟一个数组容量是有限的，这种可能性很大。解决该问题的方法很多，我首先想到的就是用"链表",感谢大学里学的数据结构教会了这个百试百灵的法宝，我遇到的很多算法都可以转化成链表来解决，只要在哈希表的每个入口挂一个链表，保存所有对应的字符串就OK了。

事情到此似乎有了完美的结局，如果是把问题独自交给我解决，此时我可能就要开始定义数据结构然后写代码了。然而Blizzard的程序员使用的方法则是更精妙的方法。基本原理就是：他们在哈希表中不是用一个哈希值而是用三个哈希值来校验字符串。

中国有句古话"再一再二不能再三再四"，看来Blizzard也深得此话的精髓，如果说两个不同的字符串经过一个哈希算法得到的入口点一致有可能，但用三个不同的哈希算法算出的入口点都一致，那几乎可以肯定是不可能的事了，这个几率是1:18889465931478580854784，大概是10的 22.3次方分之一，对一个游戏程序来说足够安全了。现在再回到数据结构上，Blizzard使用的哈希表没有使用链表，而采用"顺延"的方式来解决问题，看看这个算法：

view plaincopy to clipboardprint?
int GetHashTablePos(char *lpszString, MPQHASHTABLE *lpTable, int nTableSize)

{
const int HASH_OFFSET = 0, HASH_A = 1, HASH_B = 2;
int nHash = HashString(lpszString, HASH_OFFSET);
int nHashA = HashString(lpszString, HASH_A);
int nHashB = HashString(lpszString, HASH_B);
int nHashStart = nHash % nTableSize, nHashPos = nHashStart;

while (lpTable[nHashPos].bExists)
{
if (lpTable[nHashPos].nHashA == nHashA && lpTable[nHashPos].nHashB == nHash
B)
return nHashPos;
else
nHashPos = (nHashPos + 1) % nTableSize;

if (nHashPos == nHashStart)
break;
}

return -1; //Error value
}

int GetHashTablePos(char *lpszString, MPQHASHTABLE *lpTable, int nTableSize)

{
const int HASH_OFFSET = 0, HASH_A = 1, HASH_B = 2;
int nHash = HashString(lpszString, HASH_OFFSET);
int nHashA = HashString(lpszString, HASH_A);
int nHashB = HashString(lpszString, HASH_B);
int nHashStart = nHash % nTableSize, nHashPos = nHashStart;

while (lpTable[nHashPos].bExists)
{
if (lpTable[nHashPos].nHashA == nHashA && lpTable[nHashPos].nHashB == nHash
B)
return nHashPos;
else
nHashPos = (nHashPos + 1) % nTableSize;

if (nHashPos == nHashStart)
break;
}

return -1; //Error value
}1. 计算出字符串的三个哈希值（一个用来确定位置，另外两个用来校验)

2. 察看哈希表中的这个位置

3. 哈希表中这个位置为空吗？如果为空，则肯定该字符串不存在，返回

4. 如果存在，则检查其他两个哈希值是否也匹配，如果匹配，则表示找到了该字符串，返回

5. 移到下一个位置，如果已经越界，则表示没有找到，返回

6. 看看是不是又回到了原来的位置，如果是，则返回没找到

7. 回到3

怎么样，很简单的算法吧，但确实是天才的idea, 其实最优秀的算法往往是简单有效的算法，Blizzard被称为最卓越的游戏制作公司，不愧于此。

ps:以前保留在电脑上的东西。我没搞懂的是，这篇文章里说的三个哈希值确定一个字符串，那他构建哈希表的时候，怎么只构建一个哈希表呢？

在本课程中，您将了解使用亚马逊云科技实现商业智能 (BI) 和数据可视化的技术性知识。您将重点了解如何使用 Amazon QuickSight 构建和共享交互式控制面板和分析。您将了解如何将控制面板嵌入应用程序和网站，并安全...

它可以同时执行嵌入模型的三种常见检索功能：密集检索、多向量检索和稀疏检索，为真实世界的IR应用提供了统一的模型基础。它能够处理不同粒度的输入，从短句到多达8192个token的长文档。M3-Embedding的有效训练包括...