开发了一个C++ 版本的分布式存储和数据处理系统,欢迎使用

lilyco 2008-08-03 01:19:28
加精
我开发了一个开源的分布式存储的数据处理系统(Sector),欢迎使用:) 网址在http://sector.sourceforge.net

这是一个类似于Hadoop的系统,但使用C++开发,而且学习使用也比Hadoop简单的多,尤其是对C++程序员而言。运算速度大约比Hadoop快一倍。
...全文
5810 103 打赏 收藏 转发到动态 举报
写回复
用AI写文章
103 条回复
切换为时间正序
请发表友善的回复…
发表回复
wangxiaoqin00007 2011-12-20
  • 打赏
  • 举报
回复
大牛啊大牛 ,我是菜鸟啊菜鸟
毕设正在实现分布式数据库系统,可以提供范围查询的
求大牛指导啊
yuliguo123 2011-11-27
  • 打赏
  • 举报
回复
我怎么这么晚才看到!
tyzqqq 2010-09-09
  • 打赏
  • 举报
回复
cow
梦无痕123 2010-04-01
  • 打赏
  • 举报
回复
顶起来
xtawgipl 2009-04-04
  • 打赏
  • 举报
回复
去看看,先。
windriver3 2009-03-02
  • 打赏
  • 举报
回复
up,
大四了,毕设题目就是实现一个分布式文件系统,没啥思路,挺着急的,楼主能给个建议。
指点一下嘛,谢谢了!
lilyco 2009-02-27
  • 打赏
  • 举报
回复
[Quote=引用 101 楼 cx6445 的回复:]
一个文件放一个节点?这个io效率不能忍受,1T的一个文件那得读多长时间?1T的文件你可以说让应用来切分成几个小文件,这种架构会增加应用的复杂性和不可靠性,hdfs、gfs都是能做到对应用透明的,极大的简化了应用且增加系统的可靠性。
[/Quote]

IO效率问题:你认为hdfs(gfs不公开,我们就不讨论了)io效率高的原因就是因为它可以并行读写,但是不知道你试过向hdfs上载或者下载一个文件的速度没有。在这种情况下,如果这个文件放在1000个节点上,你的客户端就要连接1000个不同的节点,而且并行对这个过程几乎没有意义,因为瓶颈就在客户端的带宽。

应用的复杂性和可靠性:对一个应用来说,处理一个文件和处理多个文件,它的复杂性不可能有本质的变化,就是多写几行代码而已,而这些代码也不会对可靠性问题一起本质的变化。

在实际应用中,将大数据集分成若干小文件也是常见的。现在的文件系统都支持TB的文件,但是用户还是会用相对小的文件,方便备份和传输。在Hadoop常见的用于处理WWW的应用中,crawl来的网页也是放在很多小文件里的。甚至在他们的优化操作里,HDFS的块大小的设置比每一个网页文件还大,这样这个网页文件就不会被切分,而是放到一个节点上。这样做有利于提高数据处理速度。

系统可靠性:由于Sector不切分文件,它根本不需要metadata来记录每一个数据块的位置。这个系统和Hadoop比起来更简单,潜在的可靠性只会更高。

数据处理效率:HDFS简单的将数据用固定的块大小来切分,经常会将一个记录放到两个节点上,在处理的时候就要引发更多的网络连接和读写。同时,Hadoop也没法处理binary数据,因为它没法定位每一条记录的位置。Sector可以比Hadoop快2-3倍,并且支持binary数据处理。

cx6445 2008-11-19
  • 打赏
  • 举报
回复
一个文件放一个节点?这个io效率不能忍受,1T的一个文件那得读多长时间?1T的文件你可以说让应用来切分成几个小文件,这种架构会增加应用的复杂性和不可靠性,hdfs、gfs都是能做到对应用透明的,极大的简化了应用且增加系统的可靠性。
yiyaoyao58958 2008-11-12
  • 打赏
  • 举报
回复
英文网站...看不懂...
denver_2013 2008-11-10
  • 打赏
  • 举报
回复
thank you,是用于局域网数据备份的吧?
wlyangtao88 2008-11-06
  • 打赏
  • 举报
回复
参考,先了解一下。
xxxl 2008-10-31
  • 打赏
  • 举报
回复
To be posted here soon.

什么时候出来呢???

先收藏
Juchiyufei 2008-10-30
  • 打赏
  • 举报
回复
强烈关注。。
lilyco 2008-10-30
  • 打赏
  • 举报
回复
http://sector.sourceforge.net/benchmark.html
这里有排序的性能。目前用于网页索引测试的数据量还比较小,以后会把测试数据贴到页面上。
lzp765 2008-10-30
  • 打赏
  • 举报
回复
mark
caitian6 2008-10-30
  • 打赏
  • 举报
回复
UP
sophia198702 2008-10-30
  • 打赏
  • 举报
回复
这里的一些资料都不错,你们都很牛啊,嘿嘿。。。。
knuthocean_whu 2008-10-29
  • 打赏
  • 举报
回复
To lz:
楼主说用这个思想做了terasort和inverted_index,麻烦透露一下性能。
比如1T的排序和1T的网页索引需要多少时间?
geniusvic 2008-10-29
  • 打赏
  • 举报
回复
希望lz 能更多的谈谈技术方面的内容!
liujinzhao 2008-10-29
  • 打赏
  • 举报
回复
中文手册之类的呢 ?
加载更多回复(83)

2,408

社区成员

发帖
与我相关
我的任务
社区描述
高性能计算
社区管理员
  • 高性能计算社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧