请问：海量数据搜索

sfssmiss 2006-06-12 10:54:10

能帮一下这个问题吗？我是一个新手要做这一个谢谢各位帮助

1.就拿50分数据来说我要做的就等于说是网站搜索引擎，我要对自已的数据做一个搜索
应该怎么来写。怎么一个思路。
2.速度与准备度上一定要高。这一个要很好的代码。

这是我的两个要实现的目的。

真的在一次先谢谢！

应该有很多人对这方面感兴趣

请各位多提提看法与实例，实现的代码

...全文

427 11 打赏收藏转发到动态举报

写回复

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

sfssmiss 2006-06-22

打赏
举报

回复

TO:mg1616(内网)

多谢大家都来像这样提提自已的思路！~~

全文索引这样的速度最终都是慢的呀~~~准备度对于一个专业的搜索来说是够用的

你的权重不太明白！希望能多多指点

mg1616 2006-06-14

打赏
举报

回复

说下我对二次索引的理解，先把搜集的网页去标签处理，就是删除<xxx></xxx>，然后用全文索引（或其他方式，比如 like %%）对每个关键字搜索一遍，对搜索结果根据“搜索算法”进行权重计算并保存，以后的搜索就按这个权重进行排序。

进行权重计算的“搜索算法”一般是自己开发的，比如含关键字次数在5次左右权重最高，过多或过少则减少权重，还有其他等等规则，据说 google 有一百多种权重计算规则，呵呵，慢慢加去吧

sfssmiss 2006-06-13

打赏
举报

回复

全文索引数据量大的情况下得不到

关键字的准确结果，速度达不到这两方面呀！

Drate 2006-06-13

打赏
举报

回复

楼主的这个问题应该采用MS的全文索引就可以解决这个问题了吧。

sfssmiss 2006-06-13

打赏
举报

回复

是垂直搜索引擎

主要的现在要做一个搜索关键字时准确，分词也只有1--2万，有新的关键词就写入索引表中，就是这样做，，，在者就是要求速度要快，

就是怎么样建一个索引表，然后对数据库操作..........

各位多给些意见。。。谢谢！~~

sfssmiss 2006-06-12

打赏
举报

回复

各位也帮写写这个的实例。给我们学习学习一下：）

sfssmiss 2006-06-12

打赏
举报

回复

是啊我知道这个是一个有难度的问题就像一个工程一个项目一样！~~

不过我想代码不会过2000吧呵呵！~~

sfssmiss 2006-06-12

打赏
举报

回复

是后一种哦呵呵

蜘蛛爬页面存储页面现在这一块不用理会。就等于说有数据在数据库里了！~~接下来的就是分词建立索引，2次索引就是这个吧！~~

请指教:):)

gohst001 2006-06-12

打赏
举报

回复

要什么级别的？如果只是要对数据库作搜索使用全文索引吧注意必须提供时间戳列。
如果要做成中文搜索引擎的样子那就麻烦大了，蜘蛛爬页面存储页面分词建立索引，2次索引，建立索引服务器网格，前台程序扫描索引。。。嗯很麻烦就是了

gohst001 2006-06-12

打赏
举报

回复

偶也不是专业做这个的：）
专业的搜索引擎都是不用一般的商业数据库引擎的，然后要把索引存放到很多机器上，所以查询的速度才会那么快
分词是个很大的问题应该是靠大量的经验数据解决的吧？猜测

skydate 2006-06-12

打赏
举报

回复

帮顶
我也想学习一下这些

期待

本课程重点构建ELK海量日志分析平台，包括Filebeat多数据源采集、打标记、多行异常信息整合，Logstash数据解析、过滤、清洗，ElasticSearch对数据进行存储、搜索以及分析，Kibana实现大数据分析和数据可视化。...

处理海量数据问题的6类算法思想！分而治之（hash映射）+hashmap统计数量+堆排、快排、归并排序等海量日志数据，提取出某日访问百度次数最多的那个IP 如一亿个Ip求Top 10，可先%1000将ip分到1000个小文件中去，并保证一种ip只出现在一个文件中，再对每个小文件中的ip进行hashmap计数统计并按数量排序，最后归并或者最小堆依次处理每个小文件的top10以得到最后的结果。分而治之/hash映射：针对数据太大，内存受限，只能是：把大文件化成(取模映射)小文件，即16字方针：大而

寻路大数据：海量数据与大规模分析（Google大数据专家力作超豪华译者|作序者真正梳理趋势与生态|方案与工具选型|应用场景与价值挖掘的独家内参）【美】Michael Manoochehri（迈克尔.马诺切里）著戴志伟等译 ISBN 978-7-121-24472-8 2014年11月出版定价：59.00元 244页 16开编辑推荐微博副总|高德技术副总裁|百度

整理了一些海量数据处理实例

首先直接进入正题，40亿QQ号如何设计算法去重，相同的QQ号码仅保留一个，内存限制为1个G。（腾讯的QQ号都是4字节正整数，所以QQ号码的个数是43亿左右，理论值2^32-1个，又因为是无符号的，翻倍了一下，所以43亿左右）方法1：排序这估计也是最多人能够想到的解决方法，那就是排序，重复的QQ肯定会挨在一起，然后保留第一个，去重就行了。排序后的去重比较简单就不在这里赘述。但是这么做的问题显然很大，时间复杂大太高了，效率低下。方法2：hsahmap hashmap的意思：如果使用h

27,580

社区成员

68,556

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章