首页 1 2 3 4 5 6 7

hive语句优化-通过groupby实现distinct

同事写了个hive的sql语句，执行效率特别慢，跑了一个多小时程序只是map完了，reduce进行到20%。
该Hive语句如下：

select count(distinct ip)
from (select ip as ip from comprehensive.f_client_boot_daily where year="2013" and month="10"
union all
select pub_ip as ip from f_app_boot_daily where year="2013" and month="10"
union all select ip as ip from format_log.format_pv1 where year="2013" and month="10" and url_first_id=1
) d

分析：select ip as ip from comprehensive.f_client_boot_daily where year="2013" and month="10"这个语句筛选出来的数据约有10亿条，select pub_ip as ip from f_app_boot_daily where year="2013" and month="10"约有10亿条条，select ip as ip from format_log.format_pv1 where year="2013" and month="10" and url_first_id=1 筛选出来的数据约有10亿条，总的数据量大约30亿条。这么大的数据量，使用disticnt函数，所有的数据只会shuffle到一个reducer上，导致reducer数据倾斜严重。
解决办法：
首先，通过使用groupby，按照ip进行分组。改写后的sql语句如下：

select count(*)
from
(select ip
from (select ip as ip from comprehensive.f_client_boot_daily where year="2013" and month="10"
union all
select pub_ip as ip from f_app_boot_daily where year="2013" and month="10"
union all select ip as ip from format_log.format_pv1 where year="2013" and month="10" and url_first_id=1
) d
group by ip ) b

然后，合理的设置reducer数量，将数据分散到多台机器上。set mapred.reduce.tasks=50;
经过优化后，速度提高非常明显。整个作业跑完大约只需要20多分钟的时间。

单例模式和中介者模式的运用

单例模式：（看了一些别人的文章）感觉单例模式就是为了希望在同一个项目里面不会重复创建一个类的子类，方法就是将该类的子类都使用一块内存分配，所以就叫单例。单例模式有分在arc和非arc下使用，本人属于渣渣，所以

nx二次开发c语言,NX二次开发-UFUN API函数编程基础

1.NXOpen C 的函数函数名称的约定 NX Open C 共有2类名称约定：一个是标准的NX Open C 的函数名称约定；另一个是以前版本的原有的名称约定。 1.标准名称约定【格式】UF__ 【说明

python3.7.4 合并多个word文档为一个，docx模块

用到的几个模块，pip install一下 import os from docx import Document from docxcompose.composer import Compo

Asp.Net MVC 概述

Asp.Net MVC 概述原文链接：

perl去除字符串中的空格有问题

淘宝网页中有下面字符：价　　格：我最开始用perl试图去除中间的空格时用s/\s//g，发现根本没反应。淘宝的这个空格不是我们想像中的空格！

逆向工程-真码保存在系统文件破解QQ游戏对对碰助手

1）注册栏中输入任意值测试

openCV 信用卡数字识别

opencv提供了方便的绘图功能，使用其中的绘图函数可以绘制直线，矩形，圆，椭圆等多种几何图形，还能在图像中的指定位置添加文字说明。在处理图像时，可能需要与当前正在处理的图像进行交互。OpenCV提供了鼠标事件，使用户可以通过鼠标与图像交互。鼠标事件能识别常用的鼠标操作，列入：针对不同案件的

SQLite数据库操作(原生操作，GreenDao操作)

使用原生的操作方法首先实现一个DataBaseOpenHelper继承SQLiteOpenHelper

无法找到脚本引擎＂vbscript＂的解决方法

当你在运行一些基于VBS脚本语言的文件时，系统可能报错。这时候可能是你的VBS脚本服务在注册表中出错了，原因可能是卸载或安装一些代码不规范的程序引起的。这里给出无法找到脚本引擎"vbscript"的解决方法: 1）找到文件:　C:/WINDOWS/inf/w

Rabbitmq消息队列详解

文章目录