数据采集卡采集到的数据如何写入hadoop?

mzw_0359 2017-12-11 11:20:06
老板让我建个数据库,做故障诊断用,数据采集卡的数据应该如何写入hadoop?或者能给我这个小白推荐点这方面的资料.还有,有人说hadoop在高频的写入时性能不太好,做故障诊断时一个传感器的采样频率就几千上万,高频的有几十万,这不是高频的写入吗?为什么我看论文里好多人还是用hadoop做故障诊断的数据库?
...全文
1114 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
pucheung 2018-08-23
  • 打赏
  • 举报
回复
高频写入不适合hdfs , hdfs 的优势在于吞吐量, 但是延迟较高, 对于这个实时数据的写入,可借助于hbase ,然后使用hbase-> hive 做离线数据分析,或者使用flume 日志采集方式落入hdfs->hive, 或者kafka 到 flume再到hdfs->hive , 如果是实时分析可借助于kafka , 离线分析,二者均可采取,但也需关心公司对平台支持
weitao1010 2018-08-20
  • 打赏
  • 举报
回复
数据先到kafka->可以在storm做实时处理,比如你实时的看到当前的日志信息。也可以先到kafka,然后落地到本地磁盘,然后在向hdfs写入即可。
五哥 2018-07-25
  • 打赏
  • 举报
回复
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
spdata 2018-03-18
  • 打赏
  • 举报
回复
时序数据可以用tsdb存储,单机每秒钟十万采样数据应该能存的下
frankzx 2018-01-01
  • 打赏
  • 举报
回复
先将数据扔进kafka 再通过flume沉淀到hdfs
tianfang 2017-12-14
  • 打赏
  • 举报
回复
你的数据是什么数量级?几十万真不是很大 多少传感器?采集速度多少?数据总量和数据速率最大是多少 后期要做实时分析还是历史数据分析? 这些都是需求,先了解清楚。再用现在采集卡的数据怎么获得和存储的?有什么语言的开发包?

20,808

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧