社区
应用实例
帖子详情
请问:海量数据搜索
sfssmiss
2006-06-12 10:54:10
能帮一下这个问题吗?我是一个新手要做这一个谢谢各位帮助
1.就拿50分数据来说我要做的就等于说是网站搜索引擎,我要对自已的数据做一个搜索
应该怎么来写。怎么一个思路。
2.速度与准备度上一定要高。这一个要很好的代码。
这是我的两个要实现的目的。
真的在一次先谢谢!
应该有很多人对这方面感兴趣
请各位多提提看法与实例,实现的代码
...全文
427
11
打赏
收藏
请问:海量数据搜索
能帮一下这个问题吗?我是一个新手要做这一个谢谢各位帮助 1.就拿50分数据来说我要做的就等于说是网站搜索引擎,我要对自已的数据做一个搜索 应该怎么来写。怎么一个思路。 2.速度与准备度上一定要高。这一个要很好的代码。 这是我的两个要实现的目的。 真的在一次先谢谢! 应该有很多人对这方面感兴趣 请各位多提提看法与实例,实现的代码
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
11 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
sfssmiss
2006-06-22
打赏
举报
回复
TO:mg1616(内网)
多谢 大家都来像这样提提自已的思路!~~
全文索引 这样的速度最终都是慢的呀~~~准备度对于一个专业的搜索来说是够用的
你的权重不太明白!希望能多多指点
mg1616
2006-06-14
打赏
举报
回复
说下我对二次索引的理解,先把搜集的网页去标签处理,就是删除<xxx></xxx>,然后用全文索引(或其他方式,比如 like %%)对每个关键字搜索一遍,对搜索结果根据“搜索算法”进行权重计算并保存,以后的搜索就按这个权重进行排序。
进行权重计算的“搜索算法”一般是自己开发的,比如含关键字次数在5次左右权重最高,过多或过少则减少权重,还有其他等等规则,据说 google 有一百多种权重计算规则,呵呵,慢慢加去吧
sfssmiss
2006-06-13
打赏
举报
回复
全文索引数据量大的情况下得不到
关键字的准确结果,速度 达不到这两方面呀!
Drate
2006-06-13
打赏
举报
回复
楼主的这个问题应该采用MS的全文索引就可以解决这个问题了吧。
sfssmiss
2006-06-13
打赏
举报
回复
是垂直搜索引擎
主要的现在要做一个搜索关键字时准确,分词也只有1--2万,有新的关键词就写入索引表中,就是这样做,,,在者就是要求速度要快,
就是怎么样建一个索引表,然后对数据库操作..........
各位多给些意见。。。谢谢!~~
sfssmiss
2006-06-12
打赏
举报
回复
各位也帮写写这个的实例。给我们学习学习一下:)
sfssmiss
2006-06-12
打赏
举报
回复
是啊我知道这个是一个有难度的问题就像一个工程一个项目一样!~~
不过我想代码不会过2000吧呵呵!~~
sfssmiss
2006-06-12
打赏
举报
回复
是后一种哦呵呵
蜘蛛爬页面 存储页面 现在这一块不用理会。就等于说有数据在数据库里了!~~接下来的就是分词 建立索引,2次索引 就是这个吧!~~
请指教:):)
gohst001
2006-06-12
打赏
举报
回复
要什么级别的? 如果只是要对数据库作搜索 使用全文索引吧 注意必须提供时间戳列。
如果要做成中文搜索引擎的样子那就麻烦大了,蜘蛛爬页面 存储页面 分词 建立索引,2次索引,建立索引服务器网格,前台程序扫描索引。。。 嗯 很麻烦就是了
gohst001
2006-06-12
打赏
举报
回复
偶也不是专业做这个的 :)
专业的搜索引擎 都是不用一般的商业数据库引擎的,然后要把索引存放到很多机器上,所以查询的速度才会那么快
分词 是个很大的问题应该是靠大量的经验数据解决的吧?猜测
skydate
2006-06-12
打赏
举报
回复
帮顶
我也想学习一下这些
期待
构建ELK
海量
日志分析平台
本课程重点构建ELK
海量
日志分析平台,包括Filebeat多
数据
源采集、打标记、多行异常信息整合,Logstash
数据
解析、过滤、清洗,ElasticSearch对
数据
进行存储、
搜索
以及分析,Kibana实现大
数据
分析和
数据
可视化。...
面试学习:
海量
数据
的
数据
结构思想与算法
处理
海量
数据
问题的6类算法思想 !分而治之(hash映射)+hashmap统计数量+堆排、快排、归并排序等
海量
日志
数据
,提取出某日访问百度次数最多的那个IP 如一亿个Ip求Top 10,可先%1000将ip分到1000个小文件中去,并保证一种ip只出现在一个文件中,再对每个小文件中的ip进行hashmap计数统计并按数量排序,最后归并或者最小堆依次处理每个小文件的top10以得到最后的结果。 分而治之/hash映射:针对
数据
太大,内存受限,只能是:把大文件化成(取模映射)小文件,即16字方针:大而
寻路大
数据
:
海量
数据
与大规模分析
寻路大
数据
:
海量
数据
与大规模分析(Google大
数据
专家力作超豪华译者|作序者真正梳理趋势与生态|方案与工具选型|应用场景与价值挖掘的独家内参) 【美】Michael Manoochehri(迈克尔.马诺切里)著 戴志伟等 译 ISBN 978-7-121-24472-8 2014年11月出版 定价:59.00元 244页 16开 编辑推荐 微博副总|高德技术副总裁|百度
面试:
海量
数据
处理实例
整理了一些
海量
数据
处理实例
面试题:
海量
数据
去重、Top-k、BitMap问题整理
首先直接进入正题,40亿QQ号如何设计算法去重,相同的QQ号码仅保留一个,内存限制为1个G。 (腾讯的QQ号都是4字节正整数,所以QQ号码的个数是43亿左右,理论值2^32-1个,又因为是无符号的,翻倍了一下,所以43亿左右) 方法1:排序 这估计也是最多人能够想到的解决方法,那就是排序,重复的QQ肯定会挨在一起,然后保留第一个,去重就行了。排序后的去重比较简单就不在这里赘述。 但是这么做的问题显然很大,时间复杂大太高了,效率低下。 方法2:hsahmap hashmap的意思: 如果使用h
应用实例
27,580
社区成员
68,556
社区内容
发帖
与我相关
我的任务
应用实例
MS-SQL Server 应用实例
复制链接
扫一扫
分享
社区描述
MS-SQL Server 应用实例
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章