社区
Hadoop生态社区
帖子详情
hadoop map任务怎么一次读取一整块数据(多行)而非一次读取一行数据
asdfg48_
2015-05-27 11:05:06
问题:
最近在做hadoop——SVM数据挖掘工作,map任务只能一次读取一行数据,我的目的是将数据分块处理建立预测模型,再将分块得到的支持向量(所谓的模型)在Reduce中合并得到整体模型,但是map任务一次只能读取一行数据不符合一批数据建模的原则,请大家帮我看看应该怎么修改Map任务的逻辑,让其一次读取多行(一整块,最好能大于64M数据块)。
...全文
1466
7
打赏
收藏
hadoop map任务怎么一次读取一整块数据(多行)而非一次读取一行数据
问题: 最近在做hadoop——SVM数据挖掘工作,map任务只能一次读取一行数据,我的目的是将数据分块处理建立预测模型,再将分块得到的支持向量(所谓的模型)在Reduce中合并得到整体模型,但是map任务一次只能读取一行数据不符合一批数据建模的原则,请大家帮我看看应该怎么修改Map任务的逻辑,让其一次读取多行(一整块,最好能大于64M数据块)。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
7 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
汤高
2016-05-03
打赏
举报
回复
看这篇博客 里面讲了怎么实现一次读取多行 http://blog.csdn.net/tanggao1314/article/details/51307642
岁月的拓荒者
2015-08-01
打赏
举报
回复
不知道楼主解决没有?我也希望能搞搞SVM在hadoop中的实现
Accept-Victory
2015-07-20
打赏
举报
回复
楼主 ,问题怎么处理的?
osDanielLee
2015-06-04
打赏
举报
回复
简单的方法,用:NLineInputFormat,用法自己搜
夜无边CN
2015-05-31
打赏
举报
回复
需要重写inputformat。 前提是你的模型是可以分割的。比如以某个“{” 开始,以“}”结束。
java8964
2015-05-29
打赏
举报
回复
http://shiyanjun.cn/archives/291.html Do you read this?
【
数据
分析】
Hadoop
数据
分析
本课程介绍大
数据
的学习基础。本课程介绍大
数据
的背景。
Hadoop
入门和大
数据
应用视频教程,该课程主要分享
Hadoop
基础及大
数据
方面的基础知识。介绍大
数据
技术生态圈主流技术框架的应用与发展,介绍如何搭建
Hadoop
大
数据
分布式系统集群平台、大
数据
分布式文件系统HDFS 、大
数据
分布式并行计算框架
Map
Reduce。
Hadoop
之
多行
读取
数据
一,需求: 在
map
执行前,即setInputFormatClass过程,会进行
数据
的读入,默认的是每次读入
一行
数据
,进行计算。现在需要改成每次读入两行
数据
并且合并结果输出。二,思路及解决方法: 建议先看看他们的源码,理解思路。 我这里是采用的TextInputFormat.class的输入格式。它的key是每
一行
的偏移位置,value就是它这
一行
的内容。其中有创建LineRecordRead
Hadoop
-
Map
Reduce
读取
数据
分享一个大牛的人工智能教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!请点击http://www.captainbed.net 通过InputFormat决定
读取
的
数据
的类型,然后拆分成一个个InputSplit,每个InputSplit对应一个
Map
处理,RecordReader
读取
InputSplit的内容给
Map
InputFormat 决定
读取
数据
的格式,可以是文件或
数据
库等 功能 验证作业输入的正确性,如格式等 将输入文件切割成逻辑分片(InputSplit),一个
hadoop
MR从hbase中
读取
数据
写入到hbase中
hadoop
MR从hbase中
读取
数据
写入到hbase中的配置 public class WordCount { private static final Logger LOGGER= LoggerFactory.getLogger(WordCount.class); static class Hbase
Map
per extends Table
Map
per{
hadoop
的
map
和reduce
任务
的执行步骤
一共8个步骤: 1.
map
任务
处理 1.1
读取
hdfs中的文件。每
一行
解析成一个。(每一个键值对调用
一次
map
函数) 1.2 覆盖
map
(),接收1.1产生的,进行处理,转换为新的输出 1.3 对1.2输出的进行分区。默认分为1个区。 1.4 对不同分区中的
数据
进行排序(按照k)、分组。分组指的是相同key的value放到一个集合中。 1.5 (可选)对分组后的
数据
进行规约
Hadoop生态社区
20,811
社区成员
4,691
社区内容
发帖
与我相关
我的任务
Hadoop生态社区
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
复制链接
扫一扫
分享
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章