hadoop map任务怎么一次读取一整块数据（多行）而非一次读取一行数据

asdfg48_ 2015-05-27 11:05:06

问题：
最近在做hadoop——SVM数据挖掘工作，map任务只能一次读取一行数据，我的目的是将数据分块处理建立预测模型，再将分块得到的支持向量（所谓的模型）在Reduce中合并得到整体模型，但是map任务一次只能读取一行数据不符合一批数据建模的原则，请大家帮我看看应该怎么修改Map任务的逻辑，让其一次读取多行（一整块，最好能大于64M数据块）。

...全文

1466 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

汤高 2016-05-03

打赏
举报

回复

看这篇博客里面讲了怎么实现一次读取多行 http://blog.csdn.net/tanggao1314/article/details/51307642

岁月的拓荒者 2015-08-01

打赏
举报

回复

不知道楼主解决没有？我也希望能搞搞SVM在hadoop中的实现

Accept-Victory 2015-07-20

打赏
举报

回复

楼主，问题怎么处理的？

osDanielLee 2015-06-04

打赏
举报

回复

简单的方法，用：NLineInputFormat，用法自己搜

夜无边CN 2015-05-31

打赏
举报

回复

需要重写inputformat。前提是你的模型是可以分割的。比如以某个“｛” 开始，以“｝”结束。

java8964 2015-05-29

打赏
举报

回复

http://shiyanjun.cn/archives/291.html Do you read this?

本课程介绍大数据的学习基础。本课程介绍大数据的背景。Hadoop入门和大数据应用视频教程，该课程主要分享Hadoop基础及大数据方面的基础知识。介绍大数据技术生态圈主流技术框架的应用与发展，介绍如何搭建Hadoop大数据分布式系统集群平台、大数据分布式文件系统HDFS 、大数据分布式并行计算框架MapReduce。

一，需求：在map执行前，即setInputFormatClass过程，会进行数据的读入，默认的是每次读入一行数据，进行计算。现在需要改成每次读入两行数据并且合并结果输出。二，思路及解决方法：建议先看看他们的源码，理解思路。我这里是采用的TextInputFormat.class的输入格式。它的key是每一行的偏移位置，value就是它这一行的内容。其中有创建LineRecordRead

分享一个大牛的人工智能教程。零基础！通俗易懂！风趣幽默！希望你也加入到人工智能的队伍中来！请点击http://www.captainbed.net 通过InputFormat决定读取的数据的类型，然后拆分成一个个InputSplit，每个InputSplit对应一个Map处理，RecordReader读取InputSplit的内容给Map InputFormat 决定读取数据的格式，可以是文件或数据库等功能验证作业输入的正确性，如格式等将输入文件切割成逻辑分片(InputSplit)，一个

hadoop MR从hbase中读取数据写入到hbase中的配置 public class WordCount { private static final Logger LOGGER= LoggerFactory.getLogger(WordCount.class); static class HbaseMapper extends TableMapper{

一共8个步骤: 1. map任务处理 1.1 读取hdfs中的文件。每一行解析成一个。(每一个键值对调用一次map函数) 1.2 覆盖map()，接收1.1产生的，进行处理，转换为新的输出 1.3 对1.2输出的进行分区。默认分为1个区。 1.4 对不同分区中的数据进行排序(按照k)、分组。分组指的是相同key的value放到一个集合中。 1.5 (可选)对分组后的数据进行规约

Hadoop生态社区

20,811

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章