spark 操作hbase报org.apache.hadoop.hbase.client.Put没有序列化

ghhg 2014-06-18 03:25:03

我擦了个大姨妈！我看Put这个类的源码到所有父类都没有序列化这是个什么意思？求大神指教

...全文

1338 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

baidu_18206839 2014-10-22

打赏
举报

回复

楼主问题解决了吗？可以分享下代码么？

ghhg 2014-08-26

打赏
举报

回复

这只是因为我的object没有实现序列化么？我是在foreach里面进行插入的而且单机由于内存不足大部分shuffle在disk 所以报这个错的

人生偌只如初见 2014-08-08

打赏
举报

回复

http://blog.csdn.net/fighting_one_piece/article/details/38437647 可以参考下这个

本文介绍了如何在Apache Spark中配置使用Kryo序列化器来提高应用性能。通过两种方式展示如何设置序列化器：一是通过系统属性设置，二是通过SparkConf对象进行配置。

本文基于五年生产实践，深度对比Hadoop、Storm、Samza、Spark、Flink五大框架在时间语义、状态管理与容错机制上的本质差异，提出七步实操决策树：从定义实时单位（毫秒/秒/分钟）、评估状态规模与访问模式、校验容错语义（Exactly-Once代价）、盘点现有技术栈、量化开发运维成本、72小时真实压力测试，到渐进式迁移路径。聚焦Flink状态后端调优、Spark微批延迟陷阱、Storm低延迟适用边界、Samza-Kafka深度耦合、Hadoop作为基础设施的不可替代性等关键技术权衡，拒绝抽象对比，直击生产环境配置、排障与面试高频痛点。

本文系统介绍Hadoop大数据技术体系，涵盖HDFS分布式文件系统架构（NameNode/DataNode/SecondaryNameNode）、YARN资源调度框架（ResourceManager/NodeManager/ApplicationMaster/Container）及MapReduce计算模型（Map/Reduce阶段、Shuffle核心流程、InputFormat/OutputFormat机制）。详细解析Hadoop安装部署、集群配置、免密SSH、环境测试及WordCount案例实现，并深入阐述数据切片、分区、Combiner、分组聚合等关键技术原理。

本文详细讲解Hadoop 2.7.1伪分布式环境的搭建全过程，涵盖Java与SSH前置配置、core-site.xml等四大核心配置文件修改、HDFS格式化、YARN与HDFS守护进程启动、Web UI验证（50070/8088端口）及WordCount示例运行。重点解析NameNode、DataNode、ResourceManager、NodeManager等组件协同机制，并提供日志分析、端口访问失败、权限拒绝等典型问题排查方法。

（1）Hadoop是一个由Apache基金会所开发的分布式计算基础框架。（2）主要解决海量数据的存储和海量数据的分析计算问题。（3）广义上来讲，Hadoop通常是指一个更广泛的概念--Hadoop生态圈。NameNode：存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所爱的的DataNode等。DataNode：在本地文件系统存储文件块数据，以及块数据的校验和。Secondary NameNode：每隔一段时间对NameNode元数据备份。

932

社区成员

652

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章