社区
高性能计算
帖子详情
开发了一个C++ 版本的分布式存储和数据处理系统,欢迎使用
lilyco
2008-08-03 01:19:28
加精
我开发了一个开源的分布式存储的数据处理系统(Sector),欢迎使用:) 网址在
http://sector.sourceforge.net
。
这是一个类似于Hadoop的系统,但使用C++开发,而且学习使用也比Hadoop简单的多,尤其是对C++程序员而言。运算速度大约比Hadoop快一倍。
...全文
5811
103
打赏
收藏
开发了一个C++ 版本的分布式存储和数据处理系统,欢迎使用
我开发了一个开源的分布式存储的数据处理系统(Sector),欢迎使用:) 网址在http://sector.sourceforge.net。 这是一个类似于Hadoop的系统,但使用C++开发,而且学习使用也比Hadoop简单的多,尤其是对C++程序员而言。运算速度大约比Hadoop快一倍。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
103 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
wangxiaoqin00007
2011-12-20
打赏
举报
回复
大牛啊大牛 ,我是菜鸟啊菜鸟
毕设正在实现分布式数据库系统,可以提供范围查询的
求大牛指导啊
yuliguo123
2011-11-27
打赏
举报
回复
我怎么这么晚才看到!
tyzqqq
2010-09-09
打赏
举报
回复
cow
梦无痕123
2010-04-01
打赏
举报
回复
顶起来
xtawgipl
2009-04-04
打赏
举报
回复
去看看,先。
windriver3
2009-03-02
打赏
举报
回复
up,
大四了,毕设题目就是实现一个分布式文件系统,没啥思路,挺着急的,楼主能给个建议。
指点一下嘛,谢谢了!
lilyco
2009-02-27
打赏
举报
回复
[Quote=引用 101 楼 cx6445 的回复:]
一个文件放一个节点?这个io效率不能忍受,1T的一个文件那得读多长时间?1T的文件你可以说让应用来切分成几个小文件,这种架构会增加应用的复杂性和不可靠性,hdfs、gfs都是能做到对应用透明的,极大的简化了应用且增加系统的可靠性。
[/Quote]
IO效率问题
:你认为hdfs(gfs不公开,我们就不讨论了)io效率高的原因就是因为它可以并行读写,但是不知道你试过向hdfs上载或者下载一个文件的速度没有。在这种情况下,如果这个文件放在1000个节点上,你的客户端就要连接1000个不同的节点,而且并行对这个过程几乎没有意义,因为瓶颈就在客户端的带宽。
应用的复杂性和可靠性
:对一个应用来说,处理一个文件和处理多个文件,它的复杂性不可能有本质的变化,就是多写几行代码而已,而这些代码也不会对可靠性问题一起本质的变化。
在实际应用中,将大数据集分成若干小文件也是常见的。现在的文件系统都支持TB的文件,但是用户还是会用相对小的文件,方便备份和传输。在Hadoop常见的用于处理WWW的应用中,crawl来的网页也是放在很多小文件里的。甚至在他们的优化操作里,HDFS的块大小的设置比每一个网页文件还大,这样这个网页文件就不会被切分,而是放到一个节点上。这样做有利于提高数据处理速度。
系统可靠性
:由于Sector不切分文件,它根本不需要metadata来记录每一个数据块的位置。这个系统和Hadoop比起来更简单,潜在的可靠性只会更高。
数据处理效率
:HDFS简单的将数据用固定的块大小来切分,经常会将一个记录放到两个节点上,在处理的时候就要引发更多的网络连接和读写。同时,Hadoop也没法处理binary数据,因为它没法定位每一条记录的位置。Sector可以比Hadoop快2-3倍,并且支持binary数据处理。
cx6445
2008-11-19
打赏
举报
回复
一个文件放一个节点?这个io效率不能忍受,1T的一个文件那得读多长时间?1T的文件你可以说让应用来切分成几个小文件,这种架构会增加应用的复杂性和不可靠性,hdfs、gfs都是能做到对应用透明的,极大的简化了应用且增加系统的可靠性。
yiyaoyao58958
2008-11-12
打赏
举报
回复
英文网站...看不懂...
denver_2013
2008-11-10
打赏
举报
回复
thank you,是用于局域网数据备份的吧?
wlyangtao88
2008-11-06
打赏
举报
回复
参考,先了解一下。
xxxl
2008-10-31
打赏
举报
回复
To be posted here soon.
什么时候出来呢???
先收藏
Juchiyufei
2008-10-30
打赏
举报
回复
强烈关注。。
lilyco
2008-10-30
打赏
举报
回复
http://sector.sourceforge.net/benchmark.html
这里有排序的性能。目前用于网页索引测试的数据量还比较小,以后会把测试数据贴到页面上。
lzp765
2008-10-30
打赏
举报
回复
mark
caitian6
2008-10-30
打赏
举报
回复
UP
sophia198702
2008-10-30
打赏
举报
回复
这里的一些资料都不错,你们都很牛啊,嘿嘿。。。。
knuthocean_whu
2008-10-29
打赏
举报
回复
To lz:
楼主说用这个思想做了terasort和inverted_index,麻烦透露一下性能。
比如1T的排序和1T的网页索引需要多少时间?
geniusvic
2008-10-29
打赏
举报
回复
希望lz 能更多的谈谈技术方面的内容!
liujinzhao
2008-10-29
打赏
举报
回复
中文手册之类的呢 ?
加载更多回复(83)
征服
C++
11视频精讲
【为什么还需要学习
C++
?】 你是否接触很多语言,但从来没有了解过编程语言的本质?... 提升篇: 本篇可以帮助学员更加高效的进行
c++
开发
,其中包含类型转换、文件操作、异常处理、代码重用等内容。
分布式系统
开发
实战:
分布式存储
,
分布式存储
常用技术
传统的关系型数据库,对于处理大规模的数据显得力不从心,由此以NoSQL为代表的
分布式存储
应运而生。NoSQL,泛指非关系型的数据库。NoSQL数据库的产生旨在解决大规模数据集合多重数据种类带来的挑战,尤其是大数据...
盘点分布式文件存储系统____分布式文件存储系统简介
一、
分布式存储
简介 1、什么是
分布式存储
在开始介绍
分布式存储
之前,先了解一下,非分布式的存储方案。 在单机时代,将文件直接存储在服务部署的服务器上—— 直连存储(DAS):存储和数据直连,拓展性、灵活性差...
分布式运用——存储系统Ceph
Ceph是
一个
开源的
分布式存储
解决方案,旨在...Ceph
使用
C++
语言
开发
,是
一个
开放、自我修复和自我管理的开源
分布式存储
系统。具有高扩展性、高性能、高可靠性的优点。Ceph目前已得到众多云计算厂商的支持并被广泛应用。
一文看懂
分布式存储
架构
目录一、集中存储结构二、
分布式存储
1 、
分布式存储
的兴起2 、
分布式存储
的重要性3 、
分布式存储
的种类和比较三、分布式理论浅析1 、一致性和可用性2 、数据分布3 、复制4 、分布式协议5、跨机房部署四、分布式文件...
高性能计算
2,408
社区成员
1,024
社区内容
发帖
与我相关
我的任务
高性能计算
高性能计算
复制链接
扫一扫
分享
社区描述
高性能计算
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章