hdfs在append的时候抛出DiskOutOfSpaceException

刘媛媛1 2017-06-20 02:49:45

我使用CDH5搭建的集群。前端传来的数据，我需要及时的保存到hive中。这里我用hdfs 的append方法，直接将数据写入到hive对应的表中。但是在写入中，用不了多长时间就会抛出All datanodes DatanodeInfoWithStorage xxxx are bad. Aborting。看日志发现是datanode抛出了DiskOutOfSpaceException。通过仔细观察我发现，在append数据的时候，datanode磁盘容量急速被用掉，但实际上并没有被用到那么多，这里感觉是程序检测异常。

如上图中的slave-2那个机器不到一会磁盘就被用完了，但等报出异常后，slave-2的硬盘使用情况又恢复正常了。

请问有高手遇到过这个问题吗？已经困扰几天了，希望高人解答！！

...全文

775 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

LinkSe7en 2017-07-06

打赏
举报

你应该是slave2来接数据并且append吧？append其实很傻，把原始文件拉下来，append之后，传hdfs。而且由于你是在datanode上进行put，所以这个datanode会存储完整的文件（所有block在这台机器都有一个副本）。再有你对hive认识应该以为它是的数据库，其实它是数据仓库。仓库是什么意思？比如一船货来了码头，我卸一件货我就要立即调车放进仓库吗？肯定是一批一批放啊！所以，你应该是比如每5分钟一批的数据，生产文件，然后load进表里。这时候你又问了，实时性怎么保证？hive从来不是做实时计算的。做实时计算有es，有hbase，有spark structed streaming+kafka等等等等。别为难hive了。最后，你的表应该没有分区吧？

caibinbupt的Hadoop源码分析完整版，包括 HDFS 和 MapReduce。 HDFS: 41章 MapReduce: 14章

HDFS append操作本篇背景是需要向HDFS写入文件，但写入文件数据是按照小时为单位生成的，那么我们需要将每小时产出数据，聚类到一个文件，这时就需要用到HDFS append操作代码 public void append(String body, String fileName, String filePath) { FSDataOutputStream out = null; Path f = new Path(filePath); try {

讲解HDFS的Java、shell操作，HDFS集群搭建