占用3.6T的硬盘的一个表,想存放到hbase里,需要用多少个计算机、怎样的硬件呢?

samyp1234 2020-10-11 11:57:11
请教大家一个问题,很头疼:
一个很大的表,假定叫t表;其中有360亿条记录,大概占用3.6T的硬盘空间;
对该t表插入数据的方式非常简单,最普通的插入数据的方式;
对该t表读取数据的方式只有一种非常简单的方式,类似于 select ... from t where a = .. and b = ..,读取的并发量不大;
也就是:对t表的使用非常简单;只是数据量非常大;占用硬盘非常大;

现在想使用hbase存储、读取t表的数据;由于没有hbase、hadoop、zokeeper的任何项目经验,由于现在需要估算硬件情况,想请教大家一下:
1,需要几个计算机?每个计算机的作用是什么(比如zookeeper使用几个计算机、hadoop使用几个计算机、hbase使用几个计算机等)?每个计算机的CPU/内存/硬盘各是多少?
2,如果购买云主机,哪个公司的比较便宜、稳定?
...全文
29157 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
samyp1234 2020-10-24
  • 打赏
  • 举报
回复
非常非常感谢;
LinkSe7en 2020-10-23
  • 打赏
  • 举报
回复
引用 9 楼 samyp1234 的回复:
[quote=引用 2 楼 LinkSe7en 的回复:]建议直接购买云HBase数据库(阿里云:https://cn.aliyun.com/product/hbase其他厂商自行比价)不需要关心zk,hadoop,hbase集群细节,也比你直接买ECS再搭建要便宜省心 建议采用2主5从 主(2核4G)从(4核8G 2T+硬盘)(阿里云约7万+一年) 实际可用容量为从节点数 * 单盘容量 / 2 即 5T
多谢多谢; 如果这样计划的硬件,是比较合适的吧? 假如硬件再差些,还可以吗 ? [/quote] 至少3从,因为默认副本数是2,少于3从容易丢数据。然后每台硬盘加大。 从节点可以随时增加和减少。
samyp1234 2020-10-23
  • 打赏
  • 举报
回复
引用 2 楼 LinkSe7en 的回复:
建议直接购买云HBase数据库(阿里云:https://cn.aliyun.com/product/hbase其他厂商自行比价)不需要关心zk,hadoop,hbase集群细节,也比你直接买ECS再搭建要便宜省心 建议采用2主5从 主(2核4G)从(4核8G 2T+硬盘)(阿里云约7万+一年) 实际可用容量为从节点数 * 单盘容量 / 2 即 5T
多谢多谢; 如果这样计划的硬件,是比较合适的吧? 假如硬件再差些,还可以吗 ?
LinkSe7en 2020-10-18
  • 打赏
  • 举报
回复
引用 7 楼 samyp1234 的回复:
[quote=引用 6 楼 LinkSe7en 的回复:][quote=引用 5 楼 samyp1234 的回复:][quote=引用 4 楼 LinkSe7en 的回复:][quote=引用 3 楼 samyp1234 的回复:][quote=引用 2 楼 LinkSe7en 的回复:]建议直接购买云HBase数据库(阿里云:https://cn.aliyun.com/product/hbase其他厂商自行比价)不需要关心zk,hadoop,hbase集群细节,也比你直接买ECS再搭建要便宜省心 建议采用2主5从 主(2核4G)从(4核8G 2T+硬盘)(阿里云约7万+一年) 实际可用容量为从节点数 * 单盘容量 / 2 即 5T
非常感谢啊; 如果自己购买云机器,来搭建;大概需要几个计算机?每个计算机的作用是什么(比如zookeeper使用几个计算机、hadoop使用几个计算机、hbase使用几个计算机等)?每个计算机的CPU/内存/硬盘各是多少?[/quote] 自建的话 7+个同规格服务器(参考云HBase从节点配置) 用cdh进行搭建。zk3/5个节点 hadoop 2主5从 hbase与hadoop保持一致 另外阿里云版HBase有魔法修改,gc和compact是比其他发行版有优势[/quote] 非常感谢啊; 如果自己搭建, 1)hadoop用哪个版本的呢(比较稳定)?zk用哪个版本的呢?hbase呢? 2)zk3/5个节点,这些zk放在哪些计算机上呢(hadoop的主上?还是从上?)? 3)如果这种方案,在其中,是否需要使用hadoop的集群?hbase的集群? [/quote] 1、用cdh最后一个免费版:6.3.2 zk是3.4.5 hadoop 3.0.0 hbase 2.1.0 2、无所谓 3、3个组件都部署在同一个集群里头。hbase是依附hadoop、依赖zk的。当然zk可以和hadoop、hbase分离部署,比如你有现成的zk微服务注册中心[/quote] 我安装CDH6.3.2,假定我安装了5个机器,分别叫 hadoop1 hadoop2 hadoop3 hadoop4 hadoop5。 hadoop使用了HA、 hadoop的重要配置是: 2个NameNode分别在 hadoop1(active) hadoop3(standby) 5个DataNode 在 hadoop1 hadoop2 hadoop3 hadoop4 hadoop5; yarn的重要设置是: 3个NodeManager分别在 hadoop1 hadoop2 hadoop3; 2个ResourceManager分别在 hadoop2 hadoop3; zookeeper的重要设置是: 3个ZookeeperServer分别在 hadoop2 hadoop3 hadoop5; 我的问题是: 1)现在安装hbase,根据上面的设置,如下的,比较合适的节点分配是什么? Master HBase REST Server HBase Thrift Server RegionServer 2)hbase是否也可以启动HA? [/quote] 1、纯HBase集群不需要安装Yarn,除非你要用MapReduce或者其他分布式框架访问HBase 2、REST和Thrift是选装的,这是为非java语言访问准备的。都丢你认为比较空闲的一台就可以了。 3、HA必须开。MASTER就是主 RegionServer就是从,跟随HDFS的配置就可以了。
samyp1234 2020-10-18
  • 打赏
  • 举报
回复
引用 6 楼 LinkSe7en 的回复:
[quote=引用 5 楼 samyp1234 的回复:][quote=引用 4 楼 LinkSe7en 的回复:][quote=引用 3 楼 samyp1234 的回复:][quote=引用 2 楼 LinkSe7en 的回复:]建议直接购买云HBase数据库(阿里云:https://cn.aliyun.com/product/hbase其他厂商自行比价)不需要关心zk,hadoop,hbase集群细节,也比你直接买ECS再搭建要便宜省心 建议采用2主5从 主(2核4G)从(4核8G 2T+硬盘)(阿里云约7万+一年) 实际可用容量为从节点数 * 单盘容量 / 2 即 5T
非常感谢啊; 如果自己购买云机器,来搭建;大概需要几个计算机?每个计算机的作用是什么(比如zookeeper使用几个计算机、hadoop使用几个计算机、hbase使用几个计算机等)?每个计算机的CPU/内存/硬盘各是多少?[/quote] 自建的话 7+个同规格服务器(参考云HBase从节点配置) 用cdh进行搭建。zk3/5个节点 hadoop 2主5从 hbase与hadoop保持一致 另外阿里云版HBase有魔法修改,gc和compact是比其他发行版有优势[/quote] 非常感谢啊; 如果自己搭建, 1)hadoop用哪个版本的呢(比较稳定)?zk用哪个版本的呢?hbase呢? 2)zk3/5个节点,这些zk放在哪些计算机上呢(hadoop的主上?还是从上?)? 3)如果这种方案,在其中,是否需要使用hadoop的集群?hbase的集群? [/quote] 1、用cdh最后一个免费版:6.3.2 zk是3.4.5 hadoop 3.0.0 hbase 2.1.0 2、无所谓 3、3个组件都部署在同一个集群里头。hbase是依附hadoop、依赖zk的。当然zk可以和hadoop、hbase分离部署,比如你有现成的zk微服务注册中心[/quote] 我安装CDH6.3.2,假定我安装了5个机器,分别叫 hadoop1 hadoop2 hadoop3 hadoop4 hadoop5。 hadoop使用了HA、 hadoop的重要配置是: 2个NameNode分别在 hadoop1(active) hadoop3(standby) 5个DataNode 在 hadoop1 hadoop2 hadoop3 hadoop4 hadoop5; yarn的重要设置是: 3个NodeManager分别在 hadoop1 hadoop2 hadoop3; 2个ResourceManager分别在 hadoop2 hadoop3; zookeeper的重要设置是: 3个ZookeeperServer分别在 hadoop2 hadoop3 hadoop5; 我的问题是: 1)现在安装hbase,根据上面的设置,如下的,比较合适的节点分配是什么? Master HBase REST Server HBase Thrift Server RegionServer 2)hbase是否也可以启动HA?
samyp1234 2020-10-15
  • 打赏
  • 举报
回复
引用 4 楼 LinkSe7en 的回复:
[quote=引用 3 楼 samyp1234 的回复:][quote=引用 2 楼 LinkSe7en 的回复:]建议直接购买云HBase数据库(阿里云:https://cn.aliyun.com/product/hbase其他厂商自行比价)不需要关心zk,hadoop,hbase集群细节,也比你直接买ECS再搭建要便宜省心 建议采用2主5从 主(2核4G)从(4核8G 2T+硬盘)(阿里云约7万+一年) 实际可用容量为从节点数 * 单盘容量 / 2 即 5T
非常感谢啊; 如果自己购买云机器,来搭建;大概需要几个计算机?每个计算机的作用是什么(比如zookeeper使用几个计算机、hadoop使用几个计算机、hbase使用几个计算机等)?每个计算机的CPU/内存/硬盘各是多少?[/quote] 自建的话 7+个同规格服务器(参考云HBase从节点配置) 用cdh进行搭建。zk3/5个节点 hadoop 2主5从 hbase与hadoop保持一致 另外阿里云版HBase有魔法修改,gc和compact是比其他发行版有优势[/quote] 非常感谢啊; 如果自己搭建, 1)hadoop用哪个版本的呢(比较稳定)?zk用哪个版本的呢?hbase呢? 2)zk3/5个节点,这些zk放在哪些计算机上呢(hadoop的主上?还是从上?)? 3)如果这种方案,在其中,是否需要使用hadoop的集群?hbase的集群?
LinkSe7en 2020-10-15
  • 打赏
  • 举报
回复
引用 5 楼 samyp1234 的回复:
[quote=引用 4 楼 LinkSe7en 的回复:][quote=引用 3 楼 samyp1234 的回复:][quote=引用 2 楼 LinkSe7en 的回复:]建议直接购买云HBase数据库(阿里云:https://cn.aliyun.com/product/hbase其他厂商自行比价)不需要关心zk,hadoop,hbase集群细节,也比你直接买ECS再搭建要便宜省心 建议采用2主5从 主(2核4G)从(4核8G 2T+硬盘)(阿里云约7万+一年) 实际可用容量为从节点数 * 单盘容量 / 2 即 5T
非常感谢啊; 如果自己购买云机器,来搭建;大概需要几个计算机?每个计算机的作用是什么(比如zookeeper使用几个计算机、hadoop使用几个计算机、hbase使用几个计算机等)?每个计算机的CPU/内存/硬盘各是多少?[/quote] 自建的话 7+个同规格服务器(参考云HBase从节点配置) 用cdh进行搭建。zk3/5个节点 hadoop 2主5从 hbase与hadoop保持一致 另外阿里云版HBase有魔法修改,gc和compact是比其他发行版有优势[/quote] 非常感谢啊; 如果自己搭建, 1)hadoop用哪个版本的呢(比较稳定)?zk用哪个版本的呢?hbase呢? 2)zk3/5个节点,这些zk放在哪些计算机上呢(hadoop的主上?还是从上?)? 3)如果这种方案,在其中,是否需要使用hadoop的集群?hbase的集群? [/quote] 1、用cdh最后一个免费版:6.3.2 zk是3.4.5 hadoop 3.0.0 hbase 2.1.0 2、无所谓 3、3个组件都部署在同一个集群里头。hbase是依附hadoop、依赖zk的。当然zk可以和hadoop、hbase分离部署,比如你有现成的zk微服务注册中心
LinkSe7en 2020-10-14
  • 打赏
  • 举报
回复
引用 3 楼 samyp1234 的回复:
[quote=引用 2 楼 LinkSe7en 的回复:]建议直接购买云HBase数据库(阿里云:https://cn.aliyun.com/product/hbase其他厂商自行比价)不需要关心zk,hadoop,hbase集群细节,也比你直接买ECS再搭建要便宜省心 建议采用2主5从 主(2核4G)从(4核8G 2T+硬盘)(阿里云约7万+一年) 实际可用容量为从节点数 * 单盘容量 / 2 即 5T
非常感谢啊; 如果自己购买云机器,来搭建;大概需要几个计算机?每个计算机的作用是什么(比如zookeeper使用几个计算机、hadoop使用几个计算机、hbase使用几个计算机等)?每个计算机的CPU/内存/硬盘各是多少?[/quote] 自建的话 7+个同规格服务器(参考云HBase从节点配置) 用cdh进行搭建。zk3/5个节点 hadoop 2主5从 hbase与hadoop保持一致 另外阿里云版HBase有魔法修改,gc和compact是比其他发行版有优势
samyp1234 2020-10-13
  • 打赏
  • 举报
回复
引用 2 楼 LinkSe7en 的回复:
建议直接购买云HBase数据库(阿里云:https://cn.aliyun.com/product/hbase其他厂商自行比价)不需要关心zk,hadoop,hbase集群细节,也比你直接买ECS再搭建要便宜省心 建议采用2主5从 主(2核4G)从(4核8G 2T+硬盘)(阿里云约7万+一年) 实际可用容量为从节点数 * 单盘容量 / 2 即 5T
非常感谢啊; 如果自己购买云机器,来搭建;大概需要几个计算机?每个计算机的作用是什么(比如zookeeper使用几个计算机、hadoop使用几个计算机、hbase使用几个计算机等)?每个计算机的CPU/内存/硬盘各是多少?
LinkSe7en 2020-10-12
  • 打赏
  • 举报
回复
建议直接购买云HBase数据库(阿里云:https://cn.aliyun.com/product/hbase其他厂商自行比价)不需要关心zk,hadoop,hbase集群细节,也比你直接买ECS再搭建要便宜省心 建议采用2主5从 主(2核4G)从(4核8G 2T+硬盘)(阿里云约7万+一年) 实际可用容量为从节点数 * 单盘容量 / 2 即 5T
samyp1234 2020-10-12
  • 打赏
  • 举报
回复
请教大家;希望得到指教啊;

20,809

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧