hive join 数据倾斜解决方案

理解join的运行原理

select u.name, o.orderid from order o join user u on o.uid = u.uid;

理解join的作用？

通常我们在执行join的时候，通常是一个表a包含很多的key, 这个key是可重复的，一张表b中对应的key是不能重复且唯一的。(如果两张表包含多个相同的key进行join操作，会产生笛卡尔积, 产生多个结果，显然在生产环境中，这是我们不想看到的)

为什么会产生数据倾斜？

造成Join数据倾斜的原因是Join on的key分布不均匀。 mapreduce底层是根据 key的hash值%reduce个数来进行数据分区的，所以相同的key对打到同一个reduce进行处理。
key值分布不均匀，倾斜key数据都被打到同一个reduce上进行处理, 造成数据倾斜问题。

场景1: 一张大表一张小表的情况？

采用MapJoin的方式, 将小表加载到内存中，执行map端的join, 中间不产生shuffle, 就不会有数据倾斜的情况出现了。

场景2: 两张大表，部分key导致倾斜的情况？

倾斜的key落到一个reduce task上, 导致某一个reduce Task执行缓慢。
对导致倾斜的key单独处理(这里的详细的处理方式就是场景3的处理方式)，和没有导致倾斜的key执行的结果进行 union all。
例如key空值过多导致的数据倾斜问题。

优点：对于join导致的数据倾斜，如果只是某几个key导致了倾斜，采用该方式可以用最有效的方式打散key进行join。而且只需要针对少数倾斜key对应的数据进行扩容n倍，不需要对全量数据进行扩容。避免了占用过多内存。

缺点：如果导致倾斜的key特别多的话，比如成千上万个key都导致数据倾斜，那么这种方式也不适合。

场景3: 两张大表，很多个key导致倾斜的情况？

有很多倾斜key的表a, key分布均匀的表b

1、给表a的key加上100以内的随机前缀，将数据打散 (ceiling函数，向上取整)
select concat_ws("_", ceiling(rand()*99), key) from a;                   tmp_a

2、将表b扩容100倍，给key加上100以内的随机前缀

产出一张临时表, tmp_id, 表中的内容如下: 
id
1
2
3
4
...
99
100

将表b和表tmp_id进行join, 产生笛卡尔积
select concat_ws("_", c.id, b.key) as key, value from b join tmp_id c;     tmp_b

这样表b的数据就扩容了100倍

然后将 tmp_a 和 tmp_b 进行join: 

select a.key, a.value, b.value 
from tmp_a a join tmp_b b 
on a.key = b.key;

这样的话，key就均匀地分配到不同的reduce上了，而且都能和对应的数据关联上，注意执行完成之后，对相应的key进行去掉前缀的操作。

由于对表b进行了扩容，这里需要对reduce端的内存做相应的调整，增加reduce task的内存。

场景3的解决方案的缺点:

优点：对join类型的数据倾斜基本都可以处理，而且效果也相对比较显著，性能提升效果非常不错。

缺点：该方案更多的是缓解数据倾斜，而不是彻底避免数据倾斜。而且需要对整个RDD进行扩容，对内存资源要求很高。

ASP.Net网站多语言的实现

ASP.NET网站多语言的实现在大中型网站中，有时需求将网站做成多个语言的版本，以适应在不同地区上线运营的需求。要求能够根据网站维护人员在后台的配置来显示不同语言

数据库mysql第一节

数据管理主要经历过程：手工管理阶段：应用程序管理数据、数据不保存、不共享、不具有独立性。文件管理阶段：文件系统管理数据、数据可长期保存、但共享性差、冗余度大、独立性差。数据管理阶段：数据库系统管理数据、数据

计蒜客1

这是一个非常简单的题目，意在考察你编程的基础能力。千万别想难了哦。输入为一行，包括了用空格分隔的三个整数 AA

wxml如何注释_微信小程序-个人总结

简介小程序的运行环境分成渲染层和逻辑层，其中 WXML 模板和 WXSS 样式工作在渲染层，JS 脚本工作在逻辑层。这样在小程序中不能使用一些前端的框架，如jQuery、Zepto等。而网页开发者可以使用到各种浏览器暴露出来的 DOM API，进行DOM选中和操作

kali 取消mysql免密登录设置，mariadb10.5.8版本；进入MySQL，准确说是mariadb添加一条命令即可

一直不成功，找了好多才成功 1.查看mariadb状态是否为active,如果没有开启就输入 # systemctl start mariadb //启动服务 # systemctl enable mariadb //开机

Angular 中级

目录（6 - 12 章）

go连接mysql_golang连接mysql

``` package main import ( // database/sql是golang的标准库之一，它提供了一系列接口方法，用于访问关系数据库。 //它并不会提供数据库特有的方法，那些特有的方法交给数据库

Caffe源码学习2:Glog学习

Google glog是一个实现应用程序级日志记录的库。这个库提供了基于C ++风格的流和各种帮助宏的日志API。您可以通过简单地将内容流式传输到LOG（\ 一、安全级别

UE4 虚幻引擎，SourceControl源码管理

方法一：使用Git bash工具设置步骤： 1、连接到Source Control

HTTP协议常见面试题三【干货】

互联网上最有效的沟通方式是异步沟通，不要期待作者马上回复，也不要心烦意乱着急地等待。出去看看天，数数云朵，你会逐步明白什么是云淡风轻。根据计划，第一章节介绍【软件