mapreduce怎么样才能按照一些符号读取内容，而不是按照行读取内容

lzz314264691 2014-06-01 03:42:23

mapreduce怎么样才能按照一些符号读取内容，而不是按照行读取内容，如
#asdasdasdasdasd
asdasdasd#

默认情况是map先读#asdasdasdasdasd，再读asdasdasd#
我想一次性读取##中间的内容

...全文

627 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

lzz314264691 2014-07-31

打赏
举报

回复

已经重写FileInputFormat，实现了以任意字符读取

五哥 2014-06-03

打赏
举报

回复

应该有的，不过要自己写，看看一下这个链接中的文章： http://blog.csdn.net/Hipercomer/article/details/27203079 <<在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数 >>

coolbamboo2008 2014-06-03

打赏
举报

回复

默认就是按照行读的，等高手来解惑吧

herofour444 2014-06-03

打赏
举报

回复

很难吧，只能读出来自己写代码处理吧。

给定一个文本文档，使用MapReduce思想统计出出现频率最高的前三个单词

人工智能-hadoop

Artistplays-mapreduce 锻炼：创建艺术家/乐队列表和每天的播放次数。地图缩减：预处理额外标点符号替换艺术家/乐队名称中不是单词字符的所有内容 - [AZ][az][0-9] 停用词对于这种类型的分析，我们希望关注具有含义的单词：名称、名词和动词。像 the、of 和 of 之类的词出现的次数比英语中的任何其他词都要多。使用停用词列表过滤掉那些最常用的标记。在进一步处理之前，列表中的任何内容都会从输入艺术家/乐队名称流中删除。列表当前保存在代码中，但可以作为缓存文件从命令行读取。时间转换输入记录在 Unix 时间戳中有时间。转换为 YYYY-MM-DD 格式映射器阶段在 Mapper 阶段，Mapper 会一条一条记录：标准化艺术家/乐队名称将输出日期转换为 YYYY-MM-DD 格式映射器输出 - 键：艺术家元组（艺术家姓名，日期

使用Hadop实现 Mapper/Reducer，对一个文档中的每一行的单词进行词配对计数，要求去标点符号，将大写符号统一转化成为小写单词。

该代码为hadoop的经典wordcount代码，java实现。代码里有详细注解，适合于入学者。

Hadoop生态社区

20,848

社区成员

4,696

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章