社区
高性能计算
帖子详情
开发了一个C++ 版本的分布式存储和数据处理系统,欢迎使用
lilyco
2008-08-03 01:19:28
加精
我开发了一个开源的分布式存储的数据处理系统(Sector),欢迎使用:) 网址在
http://sector.sourceforge.net
。
这是一个类似于Hadoop的系统,但使用C++开发,而且学习使用也比Hadoop简单的多,尤其是对C++程序员而言。运算速度大约比Hadoop快一倍。
...全文
5810
103
打赏
收藏
开发了一个C++ 版本的分布式存储和数据处理系统,欢迎使用
我开发了一个开源的分布式存储的数据处理系统(Sector),欢迎使用:) 网址在http://sector.sourceforge.net。 这是一个类似于Hadoop的系统,但使用C++开发,而且学习使用也比Hadoop简单的多,尤其是对C++程序员而言。运算速度大约比Hadoop快一倍。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
103 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
wangxiaoqin00007
2011-12-20
打赏
举报
回复
大牛啊大牛 ,我是菜鸟啊菜鸟
毕设正在实现分布式数据库系统,可以提供范围查询的
求大牛指导啊
yuliguo123
2011-11-27
打赏
举报
回复
我怎么这么晚才看到!
tyzqqq
2010-09-09
打赏
举报
回复
cow
梦无痕123
2010-04-01
打赏
举报
回复
顶起来
xtawgipl
2009-04-04
打赏
举报
回复
去看看,先。
windriver3
2009-03-02
打赏
举报
回复
up,
大四了,毕设题目就是实现一个分布式文件系统,没啥思路,挺着急的,楼主能给个建议。
指点一下嘛,谢谢了!
lilyco
2009-02-27
打赏
举报
回复
[Quote=引用 101 楼 cx6445 的回复:]
一个文件放一个节点?这个io效率不能忍受,1T的一个文件那得读多长时间?1T的文件你可以说让应用来切分成几个小文件,这种架构会增加应用的复杂性和不可靠性,hdfs、gfs都是能做到对应用透明的,极大的简化了应用且增加系统的可靠性。
[/Quote]
IO效率问题
:你认为hdfs(gfs不公开,我们就不讨论了)io效率高的原因就是因为它可以并行读写,但是不知道你试过向hdfs上载或者下载一个文件的速度没有。在这种情况下,如果这个文件放在1000个节点上,你的客户端就要连接1000个不同的节点,而且并行对这个过程几乎没有意义,因为瓶颈就在客户端的带宽。
应用的复杂性和可靠性
:对一个应用来说,处理一个文件和处理多个文件,它的复杂性不可能有本质的变化,就是多写几行代码而已,而这些代码也不会对可靠性问题一起本质的变化。
在实际应用中,将大数据集分成若干小文件也是常见的。现在的文件系统都支持TB的文件,但是用户还是会用相对小的文件,方便备份和传输。在Hadoop常见的用于处理WWW的应用中,crawl来的网页也是放在很多小文件里的。甚至在他们的优化操作里,HDFS的块大小的设置比每一个网页文件还大,这样这个网页文件就不会被切分,而是放到一个节点上。这样做有利于提高数据处理速度。
系统可靠性
:由于Sector不切分文件,它根本不需要metadata来记录每一个数据块的位置。这个系统和Hadoop比起来更简单,潜在的可靠性只会更高。
数据处理效率
:HDFS简单的将数据用固定的块大小来切分,经常会将一个记录放到两个节点上,在处理的时候就要引发更多的网络连接和读写。同时,Hadoop也没法处理binary数据,因为它没法定位每一条记录的位置。Sector可以比Hadoop快2-3倍,并且支持binary数据处理。
cx6445
2008-11-19
打赏
举报
回复
一个文件放一个节点?这个io效率不能忍受,1T的一个文件那得读多长时间?1T的文件你可以说让应用来切分成几个小文件,这种架构会增加应用的复杂性和不可靠性,hdfs、gfs都是能做到对应用透明的,极大的简化了应用且增加系统的可靠性。
yiyaoyao58958
2008-11-12
打赏
举报
回复
英文网站...看不懂...
denver_2013
2008-11-10
打赏
举报
回复
thank you,是用于局域网数据备份的吧?
wlyangtao88
2008-11-06
打赏
举报
回复
参考,先了解一下。
xxxl
2008-10-31
打赏
举报
回复
To be posted here soon.
什么时候出来呢???
先收藏
Juchiyufei
2008-10-30
打赏
举报
回复
强烈关注。。
lilyco
2008-10-30
打赏
举报
回复
http://sector.sourceforge.net/benchmark.html
这里有排序的性能。目前用于网页索引测试的数据量还比较小,以后会把测试数据贴到页面上。
lzp765
2008-10-30
打赏
举报
回复
mark
caitian6
2008-10-30
打赏
举报
回复
UP
sophia198702
2008-10-30
打赏
举报
回复
这里的一些资料都不错,你们都很牛啊,嘿嘿。。。。
knuthocean_whu
2008-10-29
打赏
举报
回复
To lz:
楼主说用这个思想做了terasort和inverted_index,麻烦透露一下性能。
比如1T的排序和1T的网页索引需要多少时间?
geniusvic
2008-10-29
打赏
举报
回复
希望lz 能更多的谈谈技术方面的内容!
liujinzhao
2008-10-29
打赏
举报
回复
中文手册之类的呢 ?
加载更多回复(83)
征服
C++
11视频精讲
【为什么还需要学习
C++
?】 你是否接触很多语言,但从来没有了解过编程语言的本质?... 提升篇: 本篇可以帮助学员更加高效的进行
c++
开发
,其中包含类型转换、文件操作、异常处理、代码重用等内容。
分布式系统
开发
实战:
分布式存储
,
分布式存储
常用技术
互联网每天产生数以亿计的数据,这些数据如何能够被正确地存储、解析、利用,是摆在每个数据公司面前的挑战。传统的关系型数据库,对于处理大规模的数据显得力不从心,由此以NoSQL为代表的
分布式存储
应运而生。NoSQL,泛指非关系型的数据库。NoSQL数据库的产生旨在解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用的难题。本章介绍
分布式存储
。
分布式存储
系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器的空间有限成为系统性能的瓶颈,也是可靠性和安全性的焦
盘点分布式文件存储系统____分布式文件存储系统简介
在项目的数据存储中,结构化数据通常采用关系型数据库,非结构化数据(文件)的存储就有很多种方式,服务器本地存储、Nas挂载、ftp等等,今天就来盘点一下,分布式文件存储系统。 一、
分布式存储
简介 1、什么是
分布式存储
在开始介绍
分布式存储
之前,先了解一下,非分布式的存储方案。 在单机时代,将文件直接存储在服务部署的服务器上—— 直连存储(DAS):存储和数据直连,拓展性、灵活性差。 为了扩展,将文件和服务分离,通过网络连接—— 中心化存储(NAS、SAN):设备类型丰富,通过网络互连,具有一定的拓展.
分布式运用——存储系统Ceph
Ceph是
一个
开源的
分布式存储
解决方案,旨在提供可扩展性、高性能和强大的数据可靠性。它采用了一种分布式对象存储架构,能够同时提供块存储和文件存储的功能。本篇博客将深入探索Ceph的原理、特性和应用场景,帮助读者更好地理解和
使用
这一强大的存储解决方案。Ceph
使用
C++
语言
开发
,是
一个
开放、自我修复和自我管理的开源
分布式存储
系统。具有高扩展性、高性能、高可靠性的优点。Ceph目前已得到众多云计算厂商的支持并被广泛应用。
一文看懂
分布式存储
架构
目录一、集中存储结构二、
分布式存储
1 、
分布式存储
的兴起2 、
分布式存储
的重要性3 、
分布式存储
的种类和比较三、分布式理论浅析1 、一致性和可用性2 、数据分布3 、复制4 、分布式协议5、跨机房部署四、分布式文件系统1、 Google 文件系统( GFS )2、 Taobao 文件系统( TFS )3、 Fackbook Haystack 文件系统4、 CDN 内容分发网络五、分布式键值系统1、 Amazon Dynamo2、 Taobao Tiar3、 ETCD4 、产品选型比较( Etcd , Zoo
高性能计算
2,408
社区成员
1,024
社区内容
发帖
与我相关
我的任务
高性能计算
高性能计算
复制链接
扫一扫
分享
社区描述
高性能计算
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章