Hive 的Map-Reduce Job执行太慢，有什么办法可以优化吗？

blackkettle 2014-06-02 11:06:51

各位论坛达人，

我在虚拟机上安装了伪分布的hadoop 2.4.0, 然后安装好了hive 0.13.0.

然后新建了一个表，只有3行数据，如下所示

[admin@localhost Desktop]$ hive

14/06/01 20:03:18 WARN conf.HiveConf: DEPRECATED: hive.metastore.ds.retry.* no longer has any effect.  Use hive.hmshandler.retry.* instead



Logging initialized using configuration in file:/home/admin/apache-hive-0.13.0-bin/conf/hive-log4j.properties

hive> select * from wyp;

OK

1	wyp	25	13188888888888

2	test	30	13888888888888

3	zs	34	899314121

Time taken: 1.614 seconds, Fetched: 3 row(s)

可是一执行涉及到mapreduce的查询就慢得不行了。

hive> select count(1) from wyp;           

Total jobs = 1

Launching Job 1 out of 1

Number of reduce tasks determined at compile time: 1

In order to change the average load for a reducer (in bytes):

  set hive.exec.reducers.bytes.per.reducer=<number>

In order to limit the maximum number of reducers:

  set hive.exec.reducers.max=<number>

In order to set a constant number of reducers:

  set mapreduce.job.reduces=<number>

Starting Job = job_1401667640093_0009, Tracking URL = http://localhost:8088/proxy/application_1401667640093_0009/

Kill Command = /home/admin/hadoop-2.4.0/bin/hadoop job  -kill job_1401667640093_0009

已经等了10来分钟就没有出结果。

请问各位有什么好的建议吗？

万分感谢！

...全文

1965 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_25535783 2016-05-19

打赏
举报

回复

楼主，我现在也碰到了这个问题，困扰我一个多星期了，请问您是怎么解决的呢？万分感谢~在线等~

blackkettle 2014-06-07

打赏
举报

回复

嗯，确实是有问题。直接重新安装hadoop。

coolbamboo2008 2014-06-03

打赏
举报

回复

关注，感觉不可能这么慢吧，是哪里有问题吧

herofour444 2014-06-03

打赏
举报

回复

看看日志。正常的不会这么慢1分钟左右就能出来。并且现在hive效率确实很低 shark/spark效率能比hive提升几倍。

本文详细介绍了Hive的job任务优化策略，包括hive explain的使用、MapReduce属性优化如本地模式、JVM重用和并行执行，以及join操作的Map Join、Reduce Join和Bucket Join的优化。此外，还探讨了谓词下推、优化器和数据倾斜的解决方案，为Hive性能提升提供全面指导。

本文介绍了如何通过调整MapReduce的参数来优化大数据处理任务的执行效率，包括控制map和reduce的数量、设置文件处理大小等关键配置。

本文探讨Hive处理小文件的策略，包括通过CombineHiveInputFormat合并小文件，调整map和reduce数量，以及使用压缩和归档文件等方法优化任务执行效率。

本文介绍了Hive中针对reduce数为1的MapReduce任务（MR Job）进行性能优化的方法。通过分析云霄飞车项目，揭示了Hive在估算reduce数时的问题，提出了优化算法，包括判断reduce数是否编译时确定以及根据输入文件大小重新估算reduce数。通过实例展示，调整reduce任务数量显著提升了作业执行效率。

本文深入探讨Hive on Spark环境中任务的map和reduce数量调整策略，解析不同InputFormat类如FileInputFormat、CombineFileInputFormat及HiveInputFormat的工作原理，揭示maptask数据读取机制，提供map和reduce数量的优化原则。

Hadoop生态社区

20,844

社区成员

4,695

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章