请教关于flink写入hbase的问题，

Yoga_L1n 2019-09-17 10:08:16

class HBaseOutputFormat extends OutputFormat[String]{ val zkServer = "192.168.187.201" val port = "2181" var conn: Connection = null var mutator: BufferedMutator = null var count = 0 /** * 配置输出格式。此方法总是在实例化输出格式上首先调用的 * * @param configuration */ override def configure(configuration: Configuration): Unit = { } /** * 用于打开输出格式的并行实例，所以在open方法中我们会进行hbase的连接，配置，建表等操作。 * * @param i * @param i1 */ override def open(i: Int, i1: Int): Unit = { val config: org.apache.hadoop.conf.Configuration = HBaseConfiguration.create config.set(HConstants.ZOOKEEPER_QUORUM, zkServer) config.set(HConstants.ZOOKEEPER_CLIENT_PORT, port) config.setInt(HConstants.HBASE_CLIENT_OPERATION_TIMEOUT, 30000) config.setInt(HConstants.HBASE_CLIENT_SCANNER_TIMEOUT_PERIOD, 30000) conn = ConnectionFactory.createConnection(config) val tableName: TableName = TableName.valueOf("test") val params: BufferedMutatorParams = new BufferedMutatorParams(tableName) //设置缓存1m，当达到1m时数据会自动刷到hbase params.writeBufferSize(1024 * 1024) //设置缓存的大小 mutator = conn.getBufferedMutator(params) count = 0 } /** * 用于将数据写入数据源，所以我们会在这个方法中调用写入hbase的API * * @param it */ override def writeRecord(it: String): Unit = { val cf1 = "cf1" val array: Array[String] = it.split(",") val put: Put = new Put(Bytes.toBytes(array(0))) put.addColumn(Bytes.toBytes(cf1), Bytes.toBytes("name"), Bytes.toBytes(array(1))) put.addColumn(Bytes.toBytes(cf1), Bytes.toBytes("age"), Bytes.toBytes(array(2))) mutator.mutate(put) //每4条刷新一下数据，如果是批处理调用outputFormat，这里填写的4必须不能大于批处理的记录总数量，否则数据不会更新到hbase里面 if (count >= 4){ mutator.flush() count = 0 } count = count + 1 } /** * 关闭 */ override def close(): Unit = { try { if (conn != null) conn.close() } catch { case e: Exception => println(e.getMessage) } } } 以上是参照网上写入hbase的代码，在windows测试，我是通过jdbcinputformat读取oracle数据，在拿到datasource后进行map，在调用datasource.map().output(new hbaseoutputformat())进行写入，但是在写入过程中打印log发现，在hbaseoutputformat中的open方法，会创建4个hbase的connection，有3个connection，各自put了0条数据，随后关闭，剩下一个connection进行了全部数据的put操作，为什么会出现这种情况？怎么可以让所有connection进行put？

...全文

378 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Yoga_L1n 2019-09-17

打赏
举报

回复

求指导

上层应用业务对实时数据的需求，主要包含两部分内容：1、整体数据的实时分析。2、 AB实验效果的实时监控。这几部分数据需求，都需要进行的下钻分析支持，我们希望能够建立统一的实时OLAP数据仓库，并提供一套安全、可靠的、灵活的实时数据服务。目前每日新增的曝光日志达到几亿条记录，再细拆到AB实验更细维度时，数据量则多达上百亿记录，多维数据组合下的聚合查询要求秒级响应时间，这样的数据量也给团队带来了不小的挑战。OLAP层的技术选型，需要满足以下几点：1：数据延迟在分钟级，查询响应时间在秒级2：标准SQL交互引擎，降低使用成本3：支持join操作，方便维度增加属性信息4：流量数据可以近似去重，但订单行要精准去重5：高吞吐，每分钟数据量在千W级记录，每天数百亿条新增记录6：前端业务较多，查询并发度不能太低通过对比开源的几款实时OLAP引擎，可以发现Doris和ClickHouse能够满足上面的需求，但是ClickHouse的并发度太低是个潜在的风险，而且ClickHouse的数据导入没有事务支持，无法实现exactly once语义，对标准SQL的支持也是有限的。所以针对以上需求Doris完全能解决我们的问题，DorisDB是一个性能非常高的分布式、面向交互式查询的分布式数据库，非常的强大，随着互联网发展，数据量会越来越大，实时查询需求也会要求越来越高，DorisDB人才需求也会越来越大，越早掌握DorisDB，以后就会有更大的机遇。本课程基于真实热门的互联网电商业务场景为案例讲解，具体分析指标包含：AB版本分析，下砖分析，营销分析，订单分析，终端分析等，能承载海量数据的实时分析，数据分析涵盖全端（PC、移动、小程序）应用。整个课程，会带大家实践一个完整系统，大家可以根据自己的公司业务修改，既可以用到项目中去，价值是非常高的。本课程包含的技术：开发工具为：IDEA、WebStormFlink1.9.0DorisDBHadoop2.7.5Hbase2.2.6Kafka2.1.0Hive2.2.0HDFS、MapReduceFlume、ZookeeperBinlog、Canal、MySQLSpringBoot2.0.8.RELEASESpringCloud Finchley.SR2Vue.js、Nodejs、Highcharts、ElementUILinux Shell编程等课程亮点：1.与企业接轨、真实工业界产品2.DorisDB高性能分布式数据库3.大数据热门技术Flink4.支持ABtest版本实时监控分析5.支持下砖分析6.数据分析涵盖全端（PC、移动、小程序）应用7.主流微服务后端系统8.天级别与小时级别多时间方位分析9.数据库实时同步解决方案10.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS+ElementUI11.集成SpringCloud实现统一整合方案12.互联网大数据企业热门技术栈13.支持海量数据的实时分析14.支持全端实时数据分析15.全程代码实操，提供全部代码和资料16.提供答疑和提供企业技术方案咨询企业一线架构师讲授，代码在老师的指导下企业可以复用，提供企业解决方案。版权归作者所有，盗版将进行法律维权。

一，前言俗话说，金九银十，为了帮助广大同行面试准备，或者帮助想要了解Flink的同学带着问题思考去学习Flink，我先做了一个初步的面试题汇总，这些面试题有些是大家问的比较多的，有些是自己遇到的，有些是在群里面大家问到的问题，可能有的有答案，有的没有答案，如果有大佬或者谁有时间可以补全之后再发出来，这个只是抛砖引玉。二，Flink学习资料怎么找~ 1，首先作为初学者我建议大家先了...

本期作者FlinkSql团队B站实时平台flinksql团队，负责flink引擎sql功能的研发，支持的业务包括实时计算，流批一体以及数据湖等01 FlinkSql在B站目前在B站，线上大概有4000+的flink实时任务，主要支撑数据集成,实时数仓，模型训练，特征指标计算，以及增量化等业务。其中90%以上都是sql任务，存量的jar包任务，也在逐步推进尽可能往sql改写，sql在计算描述上的优点...

Flink面试题，有时间会解决这些问题： 1、为何我使用 ValueState 保存状态 Job 恢复是状态没恢复？ 2、flink中watermark究竟是如何生成的，生成的规则是什么，怎么用来处理乱序数据 3、消费kafka数据的时候，如果遇到了脏数据，或者是不符合规则的数据等等怎么处理呢？ 4、在Kafka 集群中怎么指定读取/写入数据到指定broker或从指定broker的offset开始消费？ 5、Flink能通过oozie或者azkaban提交吗？ 6、jobmanager挂掉后，提

Flink学习资料怎么找~ 首先作为初学者我建议大家先了解一下官网，官网是最全的API，磨刀不误砍柴工官网地址：https://flink.apache.org/ 为了不动脑子的人，官网也整理了个中文版： https://flink.apache.org/zh/ 当有了基础概念之后，可以下载代码动手操作了： https://github.com/apache/flink 可以练...

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章