MapReduce 输入格式定义多行输入问题！急，在线等！

Marcie_dss 2012-11-29 07:49:45

text 内容为个人简历，第一行为个人基本信息，如姓名、年龄、性别等。第二行开始为这个人的工作经历，格式为：XXXX年，XX省，XX单位，XX职位。直到这个人简历完后接第二个人简历。

现问题是，传统的例子是一行对应一个键值对，但这里是多行对应一个键值对。

想了一个办法，一个split包含了多条记录，一条记录对应的是一行，默认的分隔符是回车和换行，能不能把默认的分隔符改成其他的，比如空行。两个空行之间的数据为一条记录。
不知道这个能不能实现，怎么实现。

还有没有其他好方法！～～

求大神啊！！

...全文

444 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

HuiXiaoPi 2012-12-28

打赏
举报

回复

不要用TextInputFormat，用NLineInputFormat，因为TextInputFormat默认便偏移量就是一行，具体用法google一下咯

BaYangMoBeiBei 2012-12-05

打赏
举报

回复

Map的输出键值对<key, value>,把value的类型变成一个ArrayList<String>，这样可以否？

Marcie_dss 2012-11-29

打赏
举报

回复

文本的格式为：姓名，性别，民族，籍贯 XXXX年，XX省，XX单位，XX职位 XXXX年，XX省，XX单位，XX职位 XXXX年，XX省，XX单位，XX职位 XXXX年，XX省，XX单位，XX职位姓名，性别，民族，籍贯 XXXX年，XX省，XX单位，XX职位 XXXX年，XX省，XX单位，XX职位 XXXX年，XX省，XX单位，XX职位姓名，性别，民族，籍贯 . . . 求大神啊！怎么能每一次map处理一个人的信息！

java大数据培训学校全套教材系列课程由1000集视频构成，基本就是1）时下流行的java培训学校主流内部教材，2）和市面上培训学校的通行的课程体系几乎一样。所以这套课程都能自己学下来，等于上了培训学校一次，完全可以找个java工程师的工作了。通过学习MapReduce程序，如何输入文件是两个文件，Partitioner的用法，Combiner的用法，自定义对象，排序sort，topN问题，全局变量，剖析源码单步调试详解MapReduce分组group遍历，reduce当中的cleanup的用法，自定义输出：多文件输出MultipleOutputs，DBOutputFormat把MapReduce结果输出到mysql中，MapReduce实现join算法，map端做join，寻找用户间的共同好友等，围绕着Mapreduce知识点的相关14个问题，学过后可以基本胜任MapReduce编程工作。课程特色：专业细致，偏案例，理论强。课程软件使用：必须下载 2018 eclipse 4.7 oxygen版本重要声明：如果感觉噪音大，可以选择不用耳机，加音箱或用电脑原声

　　文件是 MapReduce 任务数据的初始存储地。正常情况下，输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的：我们可以使用基于行的日志文件，也可以使用二进制格式，多行输入记录或者其它一些格式。这些文件一般会很大，达到数十GB，甚至更大。那么 MapReduce 是如何读取这些数据的呢？下面我们来学习 InputFormat 接口 1、InputFormat接口...

文件是 MapReduce 任务数据的初始存储地。正常情况下，输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的：我们可以使用基于行的日志文件，也可以使用二进制格式，多行输入记录或者其它一些格式。这些文件一般会很大，达到数十GB，甚至更大。那么 MapReduce 是如何读取这些数据的呢？下面我们来学习 InputFormat 接口 1、InputFormat接口 InputF...

MapReduce多种输入格式文件是 MapReduce 任务数据的初始存储地。正常情况下，输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的：我们可以使用基于行的日志文件，也可以使用二进制格式，多行输入记录或者其它一些格式。这些文件一般会很大，达到数十GB，甚至更大。那么 MapReduce 是如何读取这些数据的呢？下面我们

默认的mapper是IdentityMapper，默认的reducer是IdentityReducer，它们将输入的键和值原封不动地写到输出中。默认的partitioner是HashPartitinoer，它根据每条记录的键进行哈希操作来分区。输入文件：文件是MapReduce任务的数据的初始存储地。正常情况下，输入文件一般是存在HDFS里。这些文件的格式可以是任意的；我

Hadoop生态社区

20,811

社区成员

4,691

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章