MapReduce 输入格式 定义多行输入 问题!急,在线等!

Marcie_dss 2012-11-29 07:49:45
text 内容为个人简历,第一行为个人基本信息,如姓名、年龄、性别等。第二行开始为这个人的工作经历,格式为:XXXX年,XX省,XX单位,XX职位。直到这个人简历完后接第二个人简历。

现问题是,传统的例子是一行对应一个键值对,但这里是多行对应一个键值对。

想了一个办法,一个split包含了多条记录,一条记录对应的是一行,默认的分隔符是回车和换行,能不能把默认的分隔符改成其他的,比如空行。两个空行之间的数据为一条记录。
不知道这个能不能实现,怎么实现。

还有没有其他好方法!~~

求大神啊!!
...全文
444 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
HuiXiaoPi 2012-12-28
  • 打赏
  • 举报
回复
不要用TextInputFormat,用NLineInputFormat,因为TextInputFormat默认便偏移量就是一行,具体用法google一下咯
BaYangMoBeiBei 2012-12-05
  • 打赏
  • 举报
回复
Map的输出键值对<key, value>,把value的类型变成一个ArrayList<String>,这样可以否?
Marcie_dss 2012-11-29
  • 打赏
  • 举报
回复
文本的格式为: 姓名,性别,民族,籍贯 XXXX年,XX省,XX单位,XX职位 XXXX年,XX省,XX单位,XX职位 XXXX年,XX省,XX单位,XX职位 XXXX年,XX省,XX单位,XX职位 姓名,性别,民族,籍贯 XXXX年,XX省,XX单位,XX职位 XXXX年,XX省,XX单位,XX职位 XXXX年,XX省,XX单位,XX职位 姓名,性别,民族,籍贯 . . . 求大神啊!怎么能每一次map处理一个人的信息!

20,811

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧