大数据的查找与存储

anyazhou2010 2012-03-05 04:51:34
前几天去面试,面试问到了一个问题,就是百度贴吧,如此多的数据如何进行存储,然后如何去查找一个人的回帖。希望大神们可以帮忙看一下。
...全文
86 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
赵自行 2012-03-05
  • 打赏
  • 举报
回复
自我感觉就像操作系统中解决办法差不多,就是抽关键字映射
支持英文数字 2012-03-05
  • 打赏
  • 举报
回复
请百度。很多答案的。
赵4老师 2012-03-05
  • 打赏
  • 举报
回复
MapReduce
大数据在不论在研究还是工程领域都是热点之一,算法是大数据管理与计算的核心主题。本课程试图简要介绍大数据计算中涉及到的基本算法设计方法。适用于大数据研究与开发人员,也适用于数据科学爱好者。 大数据算法这门课程旨在通过讲授一些大数据上基本算法设计思想,包括概率算法、I/O有效算法和并行算法,让听课的同学们接触到和传统算法课程不一样的算法设计与分析思路,并且以最新的研究成果为导向,让参与这门课程学习的同学了解大数据算法的前沿知识。通过这门课程的学习,同学可以掌握大数据算法设计的基本思想,掌握大数据算法设计与分析的技术。 【课程目录】 第1章 大数据算法概述 大数据的定义与特点 大数据算法 大数据算法设计与分析 第2章 亚线性算法概述 亚线性算法的定义 水库抽样—空间亚线性算法 平面图直径—时间亚线性计算算法 全0数组判定—时间亚线性判定算法 第3章 亚线性算法例析 数据流中频繁元素 最小生成树 序列有序的判定 第4章 外存算法概述 外存存储结构与外存算法 外存算法示例:外存排序算法 外存数据结构示例:外存查找树 第5章 外存查找结构 B树 KD树 第6章 外存图数据算法 表排序及其应用 时间前向处理方法 缩图法 第7章 基于MapReduce的并行算法设计 MapReduce概述 字数统计 平均数计算 单词共现矩阵的计算 第8章 MapReduce算法例析 连接(Join)算法 图算法 第9章 非MapReduce的并行算法设计 基于迭代处理平台的并行算法 基于图处理平台的并行算法 第10章 众包算法 众包的定义 众包的实例 众包的要素 众包算法例析
很多年前,人们就开始对数据进行利用。例如航空公司要利用数据弄清楚给机票定什么价位,银行要利用数据搞清楚该贷款给谁,信用卡公司则利用数据侦破信用卡诈骗。但是直到最近,数据,或者用现今的说法就是大数据,才真正成为我们日常生活的一部分。这是因为即使这些公司早在多年前就使用了大量的数据,但是这些数据或多或少都被我们忽视了。 之后,Facebook和谷歌出现了,至此大数据游戏被永远改变了。你和我,或者任何一个享受这些服务的用户都生成了一条数据足迹,它能够反映出我们的行为。每次我们进行搜索,例如查找某个人或者访问某个网站,都加深了这条足迹。当Facebook的用户尚少的时候,要存储所有用户的数据足迹并不是什么难事。但是很快地,Facebook用户数量激增,面对10 000亿的网页搜索和超过10亿的好友,现有技术开始力不从心。 这些公司不得不创建新技术来存储、分析激增的数据——结果就迎来了被称为“大数据”的创新爆炸。其他公司看到谷歌和Facebook的所作所为,也意欲效仿,利用大数据找出客户所需的商品,以此提高其产品的销量。企业家想通过这些数据提供更便捷的医疗保健服务,市政府则想通过数据更好地理解当地居民,为他们提供所需的服务。 如今,大部分的公司拥有大量数据,但是公司的大部分员工并不是数据科学家。因此,现在存在的一个巨大的问题就是,对广大受众而言,围绕大数据的讨论依然过于技术化,显得遥不可及。 我有幸将这个高度技术化的课题—— 一个略显技术天赋的课题,呈献给大家,解释大数据对我们的日常生活造成的影响。这本书就是成果,它描述了大数据是如何改变我们的生活、恋爱和学习方式的。
工业大数据与智能化 作者: 来源:《中国信息化周报》2019年第09期 要理解工业大数据,笔者认为,可以从下面几个数字入手。 一个目标 一个目标就是提升智能化的水平。很多专业人士谈到大数据,往往局限于各种数据的分析及其算法。如果视野仅仅局限于这个层次,那么,就难以看到大的机会。在笔者看来,大数据时代的机会就在于促进智能化水平的提高、带领工业界进入智能时代。换句话说,如果不与各种智能化工作联系起来,就可能失去大数据时代的机会。 要认识这种机会,就需要正确把握智能化的含义。什么是智能化?智能化就是通过数字化和网络技术提升信息获取或决策的能力。而决策的主体可以是机器,也可以是人。我们知道,大数据促进了机器学习技术的发展,推动了新一代人工智能(AI)的发展。但智能化的内涵应该远大于人工智能(AI)。只有认识到这一点,才能看到更多的机会和可能。 从某种意义上讲,智能化就是人机工作界面的改变,是借助ICT技术(信息通信技术)实现业务活动方式的创新。在信息获取、知识获取、决策、执行等环节,我们都可以采取新的工作方式。比如,在信息获取方面,当数据太多太散时,可以让机器去查找信息;数据组织得好时,就可以让人去查找信息。还比如,在知识获取方面,可以用人机协同的方式获取知识,也可以让机器自行去获取知识。 可以说,在智能化方面,我们要有想象力,不要局限于从数据中发现知识。比如,实现机器"用"知识推动设备智能化,或直接为人类提供可用的知识。现在,知识的人类用户可以是工程师,也可以是消费者。因此,工业大数据技术落地的前提常常是具体业务牵引,即所谓"先有需求,再找方法"。 一个基础 工业大数据与智能化全文共3页,当前为第1页。 一个基础就是数据的完整性。无论是工业产品还是车间、工厂,工业对象往往被看成一个复杂的系统。当我们用数据来表征系统时,数据的完整性和相关性都特别重要。毕竟不完整的数据和不相关的数据可能会得出错误的分析结论,而工业对象都追求高度的可靠性,对错误的容忍度很低。宝钢老专家王洪水认为,用数据记录生产过程时,"要向录像机录像一样"把数据收集起来,不要有断点。这是实践中行之有效、正确的指导思想。笔者还见过有人在研究钢铁材料成分与力学性能之间的关系时,把包括微合金钢在内的多种钢种混在一起,却只考虑了C、Si、Mn、S、P等所谓的"5大元素"。这时得到的结论自然就是错的。过去记录数据时,由于存储成本高,往往"挑重要的记录",导致记录的信息碎片化。现在数据存储成本低,可以记录的数据多了,但是,若数据之间的关联性没有被记录下来,则数据照样是没有价值的。 工业大数据与智能化全文共3页,当前为第1页。 二次应用 在多数业务系统中,数据在业务活动中产生,业务活动结束后,数据也就基本没用了。而大数据的重要用途往往发生在业务场景结束之后,故而称之为二次应用。二次应用的价值在于:用过去产生的数据让现在的业务活动做得更好。 大数据的一个重要用途是促进企业的转型升级、业务活动的创新。然而,创新的成功逻辑往往是"先做成、后做好"。强调二次应用,指的是把大数据应用于"做好"的优化阶段。在笔者看来,大数据对如何"做成"业务是没有责任的。因为没有"先做成"的业务逻辑,大数据也就没有办法落地。强调这一点的原因是:把两个困难混在一起,可能就做不成事了。"做成"的业务逻辑必须单独考虑、提前考虑,大数据只是让业务"做得更好"而已。而"做好"则包括多个方面,如质量更好、速度更快、成本更优,而不仅仅是决策质量更好。比如,重用知识和信息可以使人们做事的速度更快、成本更低。对于"做好",不要一味地强调"决策质量更优",如果仅仅局限于决策质量,则可能会失去很多创新机会。 两种承载 大数据是数据(Data),也必须是信息(Information)。两者的差别在于:数据之间有了联系才能构成信息。强调这个观点的目的在于:不要碎片化地收集数据,而是去收集有联系的数据、收集数据之间的联系,且最好是完整的信息,而不是破碎的信息。大数据不仅可以用来承载信息,而且可以用来承载知识,也就是把知识提炼出来,用大数据来承载。从工业上看,工业产品的设计数据和工业设备的状态、标准等知识都可以用数据来表示。在某些个性化需求比较多的场景下,这些数据的量是相当大的。上海有一家企业,每天处理这类数据所花的电费就有10万元。 总之,不论承载什么,都要以便于应用为目的,不要总想着"从数据提取知识"这一件事、一个环节,而是要以具体的应用为牵引,根据具体需求,以终为始地建立大数据基础。 三个优势 大数据的不同之处是什么?笔者将其归结为三个优势。正是这三个优势让我们便于从大数据中获得知识。 工业大数据与智能化全文共3页,当前为第2页。 笔者把第一个优势称为"不必纠结于因果"。这种说法区别于"是相关,不是因果",以及"工业大数据必须具备因果
大数据时代读后感全文共13页,当前为第1页。大数据时代读后感全文共13页,当前为第1页。大数据时代读后感 大数据时代读后感全文共13页,当前为第1页。 大数据时代读后感全文共13页,当前为第1页。 发布:励志 " 分类:读后感 " 发表评论   大数据时代读后感(一)   去年的"云计算"炒得热火朝天的,今年的"大数据"又突袭而来。仿佛一夜间,各厂商都纷纷改旗换帜,推起"大数据"来了。于是乎,各企业的CIO也将热度纷纷转向关注"大数据"来了。有一张来自《程序员》微博的漫画很形象。我觉得这张图,很真实地反映了现实中小企业云计算,大数据的现状。   不过话又还得说回来,《大数据时代》是本好书。   当然,很多IT知名人士也大力推荐,写了好多读后感来表述对这本书的喜欢没看此书之前,对所谓大数据的概念基本上是一头雾水,虽则有了解关注过现在也比较火热的BI,觉得也差不多,可能就是更多的数据,更细致的数据分析与数据挖掘。看过此书后,感觉到之前的想法,只能算是中了一小半吧---巨量的数据,而另一前:着眼于数据关联性,而非数据精确性,或许才是大数据与现时BI最大的不同,不仅仅是方法,更多的时思想方法。不过坦白讲,到底是数据的关联性重佳,还是数据的精确性更好,还真的需要时间来检验一下,至少从现在的数据分析方法来论,更多的倾向于数据的精确性。看完此书,我心中的一些问题:   1.什么是大数据?   查了查百度百科,是这样定义的:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据的4V特点:Volume、Velocity、Variety、Veracity--这个好像是IBM的定义吧。 大数据时代读后感全文共13页,当前为第2页。大数据时代读后感全文共13页,当前为第2页。  以个人的观点来看:数据海量,存储海量都是大数据的基本原型吧。 大数据时代读后感全文共13页,当前为第2页。 大数据时代读后感全文共13页,当前为第2页。   2.大数据适合什么样的企业?   诚然,大数据的前提是海量的数据,只有拥有巨量的数据资源,方能从中查找出数据的关联性,才可以让通过   专业化的处理,让其为企业产生价值。针对电信运营,互联网应用这样海量用户的数据的大企业,也是在应用大数据的道路上拥有得天独厚的条件,但是针对中小企业呢?销售订单数据?若非百年老店,估计数据也是少得可怜,5,能用的可能只有消费者数据了吧。貌似大多数厂商,用来举例的也就是消费都购买行为分析为最多。同样,在公共事业类的政府机构,大数据的作用也许也能很好的发挥。反而感觉在大多数中小型企业应用大数据,似乎有点大题小作。书中说:大数据是企业竞争力。诚然,数据是一个企业的核心无形资源(利用得好的话),但是否所有的数据,或都换则方式说:所有的企业都以大数据为竞争力,是否真的合适么?是否在中小企业中,会显示得小题大做呢?   3.大数据带来的影响   当一波又一波的IT技术热潮源源不断地向我们铺面而来的时候,你甚至都没有做好准备,你都要开始迎接它所给你带来的影响了。经过物联网,云计算的推波助澜下,大数据开始登场了。但它到底给我们带来了什么呢?   1)预测未来书中以Google成功预测了未来可能发生流感的案例来开篇,表明通过大数据的应用,可以为我们的生活起一个保驾护航的指向标。实质很简单,技术改变世界。 大数据时代读后感全文共13页,当前为第3页。大数据时代读后感全文共13页,当前为第3页。  2)变革商业大数据所带来的商机,同时会衍生出一系列与大数据相关的商业机遇与商业模式,数据的潜在价值会源源不断地发挥作用可以容易想到的是未来有专门的数据收集,数据分析,数据生成的一条数据产业链产生。影响最大的,当然是IT公司 大数据时代读后感全文共13页,当前为第3页。 大数据时代读后感全文共13页,当前为第3页。   3)变革思维书中所说:因为有海量的数据作基础,未来,我们可能更关注数据的相关,而非精细度。对这条,本人还是持保留意见的。   大数据时代读后感(二)   如今说起新媒体和互联网,必提大数据,似乎不这样说就OUT了。而且人云亦云的居多,不少谈论者甚至还没有认真读过这方面的经典着作——舍恩佰格的《大数据时代》。维克托·迈尔——舍恩伯格何许人也?他现任牛津大学网络学院互联网研究所治理与监管专业教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人。他的咨询客户包括微软、惠普和IBM等全球顶级企业,他是欧盟互联网官方政策背后真正的制定者和参与者,他还先后担任多国政府高层的智囊。这位被誉为:大数据时代的预言家"的牛津教授真牛!那么,这位大师说的都是金科玉律吗?并不一定,读大师的作品一定要做

64,281

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧