Spark相关配置参数

一、任务占用资源计算

executor占用CPU = executor_instances * executor_cores * 10 * 0.8（0.1核）

executor占用内存 = executor_instances * (executor.memory + max(executor.memoryOverhead, OffHeap.size) + executor.pyspark.memory)（GB）

其中，若参数未手动设置，会分配默认值。

也就是说，使用默认参数，每个executor就会分配4g + max(5g, 3.7g) + 6g = 15g的内存，对于一般任务已经足够使用。

-- driver
spark.driver.cores 1
spark.driver.memory 4g
-- executor
spark.executor.cores 2
spark.executor.memory 4g
spark.executor.memoryOverhead 5g
spark.executor.pyspark.memory 6g
-- Bytes，约为3.7G
spark.memory.offHeap.size 4000000000

二、用户需要关注的参数

如上，在使用默认配置时，每个executor就会分配15g内存，已经足够一般任务使用。

所以用户一般只需配置spark.executor.instances，spark.sql.shuffle.partitions，spark.default.parallelism即可。

如果配置后发现还是报OOM错误，可适当提高内存参数，重要参数含义见下方。

推荐配置：

spark.executor.instances 50
spark.sql.shuffle.partitions 300
spark.default.parallelism 300

三、重要参数含义

1、driver相关参数

driver实际申请内存大小计算公式：driver.memory + driver.memoryOverhead

spark.driver.memory
- driver进程（JVM使用）的内存数，一般（memory/cores >= 2g）
- 通用配置：4g
- df.collect()会返回所有数据的list，但是这个方法会将所有数据pull到driver，所以在遇到driver爆内存时，可以注意这一点。参数driver.memory调高。
- 参数调优建议：Driver的内存通常来说不设置，或者设置1G左右应该就够了。
spark.driver.cores
- 默认1，driver程序使用的CPU内核数，若无过多driver单机处理操作，一般不需要配置
- 通用配置：2
spark.driver.memoryOverhead
- driver JVM堆外内存的大小，默认为max(384, 0.1 * spark.driver.memory)
- 此配置存在默认单位MB，因此直接配置数字或带具体单位，最少1g
- 通用配置：1g

2、executor相关参数

spark.executor.instances
- 设置spark作业executor的个数executor.instances * executor.cores为当前application内并行运行task数，需要根据spark.sql.shuffle.partitions判断，一般保证executor.instances * executor.cores <= partitions / 2
- 通用配置：10
- 参数调优建议：每个Spark作业的运行一般设置50~100个左右的Executor进程比较合适，设置太少或太多的Executor进程都不好。设置的太少，无法充分利用集群资源；设置的太多的话，大部分队列可能无法给予充分的资源。
spark.executor.memory
- 每个executor进程（JVM使用）的内存大小
- 默认配置：4g
- 参数调优建议：每个Executor进程的内存设置4G~8G较为合适。但是这只是一个参考值，具体的设置还是得根据不同部门的资源队列来定。可以看看自己团队的资源队列的最大内存限制是多少，num-executors乘以executor-memory，是不能超过队列的最大内存量的。此外，如果你是跟团队里其他人共享这个资源队列，那么申请的内存量最好不要超过资源队列最大总内存的1/4~1/3，避免你自己的Spark作业占用了队列所有的资源，导致别的同学的作业无法运行
spark.executor.cores
- 每个executor的core数目。每个core同一时间只能执行一个Task线程，cores的数目也就意味着每个executor并行task的数目。
- 每个task分配的内存大小是executor-memory/executor-cores，可以按照这个分析每个task所占用的内存大小，一般（memory/cores >= 2g）。
- 每个executor为1个进程，分配一个JVM，考虑到JVM加载task信息的数量，cores个数不要超过5，超出后会容易出现大量加载任务信息导致OOM的情况。
- 默认配置：2
spark.executor.memoryOverhead
- executor JVM堆外内存大小，一般运行非JVM的逻辑
- 此部分内存主要用于JVM自身，字符串, NIO Buffer（Driect Buffer）等开销。此部分为用户代码及Spark 不可操作的内存，不足时可通过调整参数解决。
- 此配置存在默认单位MB，因此直接配置数字或带具体单位，最少1g
- 默认配置：5g
spark.executor.pyspark.memory
- python的worker内存，仅在使用pyspark时生效
- 默认配置：6g
spark.shuffle.spill.numElementsForceSpillThreshold
- 默认256000000，即256M。
- shuffle超过该数据会强行落盘此配置存在单位B，因此直接配置数字即可
- 通用配置：256000000
spark.sql.shuffle.partitions
- 对Spark SQL专用的设置
- 默认200，用于设置shuffle时partition的数目，只作用于SQL、DataSet的join/aggregations，无法对纯map操作生效。该参数代表了shuffle read task的并行度。
- 在用户shuffle OOM时，可考虑增大数目
- 通用配置：200
spark.default.parallelism
- 在处理RDD时才会起作用，对Spark SQL的无效
- 默认200，与上面作用相同，只作用于RDD的join/reduceByKey等，无法对纯map操作生效。
- 通用配置：200
- 通常来说，Spark默认设置的数量是偏少的（比如就几十个task），如果task数量偏少的话，就会导致你前面设置好的Executor的参数都前功尽弃。试想一下，无论你的Executor进程有多少个，内存和CPU有多大，但是task只有1个或者10个，那么90%的Executor进程可能根本就没有task执行，也就是白白浪费了资源！
- Spark官网建议的设置原则是，设置该参数为num-executors * executor-cores的2~3倍较为合适，比如Executor的总CPU core数量为300个，那么设置1000个task是可以的，此时可以充分地利用Spark集群的资源。
spark.memory.fraction
- 默认0.75，用于存放缓存数据和运行数据，剩余0.25为User Memory，存放用户定义的数据结构和Spark元数据信息。
- 在用户persist大量数据或者shuffle聚合数据量比较大时可以考虑增加该值
- 缓存持久化(persist) + 运行(shuffle+执行编写的代码) = memory.fraction，默认为0.75，persist用memory.storageFraction参数指定，默认0.5
spark.memory.storageFraction（spark.memory.useLegacyMode（代表启用spark1.6前的版本）时，spark.storage.memoryFraction）
- 默认0.5， storage内存大小，用于存储缓存数据，剩余空间用于execute。
- 在Unified Memory Manage模式下，内存会自动调整，分配storage和execute使用，但是在storage内存不足时，会要回所有分配的内存。
- 在用户shuffle处理数据比较大时可减小该参数
spark.memory.offHeap.size
- 设置JVM堆外内存大小，可以运行executor JVM相关计算，默认为5000000000，即5G。
- 一般任务中只有部分shuffle需要大量操作，内存可能OOM时启用，在spark.memory.offHeap.enabled设为true时启用。
- 此配置存在单位B，因此直接配置数字即可
- 默认配置：4000000000

asp.net+sqlserver网上在线订餐系统

网站前台：今日团购：展示了今日特价的团购商品详情，方便用户可以查看特价商品，对想买的商品可以直接加入购物车。购物车：购物车里收藏了用户加入的所有的商品，点击可以选择商品付款提交订单，完成支付后即可成功下单。订单查询：用户可以查看到自己所有的订单情况，也可以

java api 读取hadoop中hdfs文件系统内的文件

hadoop与hdfs需要自己安装，确保文件存在于hdfs 只有一个main方法 //HdfsTest.java import org.apache.hadoop.conf.Configuration; import org.apache.hado

HBase 分布式安装搭建/独立Zookeeper集群

一、前提要求注：本文部署结构为，全部搭建在一台机器上。事先部署了独立的Zookeeper集群和Hadoop集群（集群均为1个 =。 =） JDK版本

加入VR技术行业之前你所要知道的

诺亦腾项目经理邓思渊这么说 “虚拟现实”（Virtual Reality）快要成为现在科技行业里最火的词汇。自从Facebook 以 20 亿美元的价格收购了 Oculus，大家都认为虚拟现实将是未来的电子消费产业的浪潮。这个行业目前的

【c++】函数模版

函数模版用于执行相似的操作，一个简单的实例如下： template <class T> T maximun(T value1, T value2, T value3) {

顺序栈的实现（C++）

顺序栈的实现和之前的线性表的实现一样，此处定义的数据类型还是以学生的学号和姓名为例子。

Hive 0.13.1 和HBase 0.98.6.1整合

A：安装hadoop和HBase 参考：http://blog.csd

Vue_异步加载_vue-resource（不再维护）

写在前面：vue-resource可以发送ajax，实现异步加载，但是Vue官方已经不再维护这个库了。 vue-resource依赖于vue，因此要先引入vue，再引入vue-resource。正确引入vue-resource后，再vue全局上会挂载一个$http方法，其上有一

Java题目详解——LeetCode206.反转链表（包含三种解法，迭代，栈，递归）

使用 iptables 进行端口转发

端口转发用来中转国外的虚拟机例如远程桌面效果非常明显，iptables不仅支持单端口，连端口段也可以转发，同时TCP/UDP均可特别注明：本地服务