报错Error while compiling statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
执行Hive两个表JOIN时出现如上错误
报错原因:
执行的join是大表和小表进性join,而Hive默认开启了MapJoin,即:hive.auto.convert.join=true;
但集群机器内存不够,导致出错。
Map Join
map join本身是Hive优化的一种方式,即:如果关联的表中只有一张表是小表,那么可以在最大的表通过mapper的时候将小表放到内存中。这样,Hive就可以在map端执行join,每当扫描大表的时候,就去查看内存中的小表,找到可匹配的数据。如此,就减少了Reduce的过程,少了shuffle操作。
解决办法
由于机器内存不够,无法使用map join,那么通过取消map join,并设置合理的map reduce数,就可解决以上报错。
SET hive.auto.convert.join=false;
参考: