大数据小心得

干脆鱼 2019-04-18 11:44:45
通过阅读了gfs,知道了它是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务。它可以读取大量的信息,可以存储处理大量的信息,这个设计是为了Google公司说设计的,为了可以更好的处理大数据,方便人们的信息储存。虽然,我没有特别读得懂,感觉也是云里雾里的,个人认为应该就是可以存储一些音乐,一下视频的时候,可能会应用到gfs进行信息的存储。比如,在我们平时使用的搜索引擎就有可能会应用到gfs,我们通过搜索一些东西,便有可能会出现大量的信息,提示之类的。gfs的文件不会立刻回收可用的物理空间,gfs空间回收采用惰性处理,只在文件和Chunk级的常规垃圾收集时进行,这样方便又简洁。 当然,gfs的亮点的地方并不在是因为它采用了多厉害的新技术,而在于它使用了较为廉价的商用计算机集群构建分布式文件系统,降低了成本的同时也可经受住了实际应用的考验。 Bigtable应用也较为的广泛,Bigtable为谷歌旗下的搜索、地图、财经、打印、以及社交网站Orkut、视频共享网站例如YouTube和博客网站Blogger都为其业务提供了一定的技术支持。 Bigtable建立是在gfs之上本身的,这种分布式的意义并不仅仅限于此。稀疏的意思是,一个表里不同的行,列可能完完全全不一样。 但是,很多人都会适应以前的那种方式,都不大想使用新的Bigtable,Bigtable现在都多应用于goole里的内部的一些产品。 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。MapReduce应用普遍应用于很多大规模的数据处理。因此自发明MapReduce以后,Google公司内部进一步将其广泛应用于很多大规模数据处理问题。现在,Google公司内部都使用MapReduce,有很多各种不同的算法问题和程序都会去使用MapReduce进行处理。感觉MapReduce是一个很有用的东西,它可以在一堆看似没有任何相关联的数据,然后经过处理后,可以分析出,整理出一些有用的数据,总结一些有用的结论。而且它通常用于大数据的处理,可以更好的进行分析。比如,数据的分析,统计数据的处理,机器的学习等。MapReduce生成大量的临时文件,当然为了提高速度,它会利用Google的文件系统来去管理和访问这些文件。现在,已经很多地方运用MapReduce,已经运用于我们的生活中,一些大规模的图像处理,文字的处理,数据的挖掘,还有一些其他的领域也会运用MapReduce。最近,有一个同学分享了一个小程序给我,是有关于背英语单词的。首先是要进行英语单词的小测验,然后经过几组的英语小测之后,就会大概的测出你的英语单词量,但是,更炫的是,它经过这个测试,它可以测出你对单词的熟悉度。比如,你照一篇英语单词的相片,然后上传上去,它可以直接测出你对那些单词的熟悉度,熟悉的那些它直接帮你去掉,那些它认为你不熟悉的或者不认识的,显示出来。这样的小程序,可以提高你学习英语的效率,也很方便学习英语的使用。所以,MapReduce运用于很多地方,可能已经运用于我们生活中的方方面面,提供一个更好的,更便利的生活给我们。
...全文
50 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

11,848

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server 非技术版
社区管理员
  • 非技术版社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧