数据采集卡采集到的数据如何写入hadoop?

mzw_0359 2017-12-11 11:20:06

老板让我建个数据库，做故障诊断用，数据采集卡的数据应该如何写入hadoop？或者能给我这个小白推荐点这方面的资料．还有，有人说hadoop在高频的写入时性能不太好，做故障诊断时一个传感器的采样频率就几千上万，高频的有几十万，这不是高频的写入吗？为什么我看论文里好多人还是用hadoop做故障诊断的数据库？

...全文

1144 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

pucheung 2018-08-23

打赏
举报

回复

高频写入不适合hdfs , hdfs 的优势在于吞吐量，但是延迟较高，对于这个实时数据的写入，可借助于hbase ，然后使用hbase-> hive 做离线数据分析，或者使用flume 日志采集方式落入hdfs->hive, 或者kafka 到 flume再到hdfs->hive , 如果是实时分析可借助于kafka , 离线分析，二者均可采取，但也需关心公司对平台支持

weitao1010 2018-08-20

打赏
举报

回复

数据先到kafka->可以在storm做实时处理，比如你实时的看到当前的日志信息。也可以先到kafka，然后落地到本地磁盘，然后在向hdfs写入即可。

五哥 2018-07-25

打赏
举报

回复

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

spdata 2018-03-18

打赏
举报

回复

时序数据可以用tsdb存储，单机每秒钟十万采样数据应该能存的下

frankzx 2018-01-01

打赏
举报

回复

先将数据扔进kafka 再通过flume沉淀到hdfs

tianfang 2017-12-14

打赏
举报

回复

你的数据是什么数量级？几十万真不是很大多少传感器？采集速度多少？数据总量和数据速率最大是多少后期要做实时分析还是历史数据分析？这些都是需求，先了解清楚。再用现在采集卡的数据怎么获得和存储的？有什么语言的开发包？

Apache Flume是一个高可用的、高可靠的，分布式的海量日志采集、聚合和传输的系统。它基于流式架构，提供了灵活性和简单性，能够实时读取服务器本地磁盘的数据，并将数据写入到HDFS。

flume部署，数据采集，日志采集，hdfs，hadoop

大数据分析Hadoop

要运行这个实例，必须先安装好hadoop和hive环境，环境部署可以参考我之前的文章：大数据Hadoop原理介绍+安装+实战操作（HDFS+YARN+MapReduce）大数据Hadoop之——数据仓库Hive 【实例代码如下】 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2022/5/8 10:35 # @Author : liugp # @File : Data2HDFS.py """ # pip instal

通过将数据从不同的数据源采集并传输到指定的目的地，Flume可以帮助企业实现数据的集中存储和管理，为后续的数据分析和挖掘提供基础。它主要用于将大量的日志数据从不同的数据源收集起来，然后通过通道（Channel）进行传输，最终将数据传输到指定的目的地，如HDFS、HBase等。上表中的参数是最常用的，但并不是所有的参数都在所有版本的Flume中都可用。

Hadoop生态社区

20,847

社区成员

4,695

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章