HDFS中的文件支持close后再次打开，然后接着在其后边增加内容吗？

hjdongxuxu 2013-03-06 04:15:13

请教一个问题，现在有一个需求，期望每天往HDFS中的同一个文件写入数据。

问题是：
HDFS中的文件支持close后再次打开，然后接着在其后边增加内容吗？

hadoop的版本是Hadoop 1.0.3，不支持append操作

另外问下：
append和sync的作用是不是都是在文件未关闭的情况下将文件内容刷新至HDFS中，使得其他访问者可见？

对于要在一个文件结尾进行追加的需求是不是没有现成的API可以实现？

...全文

75 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

纯净水呐 2013-03-25

打赏
举报

回复

可以看下public FSDataOutputStream append（path f ）throws IOException 它允许一个write打开文件后在访问该文件的最后偏移量处追加数据

1.HDFS原理与架构说明2.HDFS的namenode和datanode3.HDFS缓存机制(Cache)4.HDFS快照(Snapshot)5.HDFS命令行操作6.HDFS的Java API编程7.HDFS Web HDFS API编程实践 8.HDFS企业级项目实战：某企业微博数据分析平台数据存储模块设计与实现

说明：想用Kettle Shell 组件做到 HDFS中文件的移动，脚本的命令也很简单，mv将加了 .completed 解析完成后的文件移动到 bak 目录，这块想用 kettle的 Shell 组件实现，另外一个思路是直接在 linux 做一个定时的文件移动也是可以的。此处我的另外一个实现思路是在作业启动的脚本中开启一个 linux的定时器，定时的将解析后的 HDFS 的 .completed 文件移动到 bak 目录，也在进一步改进中。就配置一个当前脚本的运行路径，就生效了。

HDFS命令与API

大数据之Hadoop（HDFS文件系统） HDFS文件系统概念： 1.1、概念： HDFS，它是一个文件系统，全称：Hadoop distributed File System ，用于存储问价通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。注：服务器默认为3台。 1.2、组成： 1）、HDFS集群包括，NameN...

1）理解 HDFS 在 Hadoop 体系结构中的角色。 2）熟练使用 HDFS 操作常用的 shell 命令。 3）熟悉 HDFS 操作常用的 Java API。

Hadoop生态社区

20,808

社区成员

4,690

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章