决策树算法

1.决策树的定义

决策树是一种基本的分类与回归方法，决策树学习通常包括3个步骤：特征选择，决策树的生成，利用决策树模型进行分类。

决策树还表示给定特征条件下的条件概率分布。这一条件概率分布定义在特征空间的一个划分上。决策树的一条路径对应于划分中的一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。假设X表示特征的随机变量，Y为表示类的随机变量，那么这个条件概率分布可以表示为P(Y|X)。X取值与给定划分下单元的集合，Y取之于类的集合。各叶节点（单元）上的条件概率往往偏向某一个类，即属于某一类的概率比较大。决策树分类时将该节点的实例强行分到条件概率大的那一类去。

2.信息增益

2.1熵与条件熵

基尼系数的特质是：
类别个数越少，基尼系数越低;
类别个数相同时，类别集中度越高，基尼系数越低。
当类别越少，类别集中度越高的时候，基尼系数越低；当类别越多，类别集中度越低的时候，基尼系数越高。
类别集中度是指类别的概率差距，0.9+0.1的概率组合，比起0.5+0.5的概率组合集中度更高。

2.2信息增益与信息增益比

3. 决策树的生成

决策树的生成是一个递归过程。在决策树基本算法中，有三种情形会导致递归返回:（1）当前结点包含的样本全属于同一类别，无需划分; (2) 当前属性集为空，或是所有样本在所有属性上取值相同，无法划分; (3) 当前结点包含的样本集合为空，不能划分。
在第（2）种情形下，我们把当前结点标记为叶结点，井将其类别设定为该结点所含样本最多的类别；在第（3）种情形下，同样把当前结点标记为叶结点，但将其类别设定为其父结点所含样本最多的类别。注意这两种情形的处理实质不同：情形（2）是在利用当前结点的后验分布，而情形（3）则是把父结点的样本分布作为当前结点的先验分布。

4. 决策树的剪枝

预剪枝使得决策树的很多分支都没有“展开”，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销.但另一方面，有些分支的当前划分虽不能提升泛化性能、甚至可能导致泛化性能暂时下降，但在其基础上进行的后续划分却有可能导致性能显著提高;预剪枝基于"贪心"本质禁止这些分支展开7 给预剪枝决策树带来了欠拟合的风险。
后剪枝决策树通常比预剪枝决策树保留了更多的分支. 一般情形下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树.但后剪枝过程是在生成完全决策树之后进行的,并且要自底向上地对树中的所有非叶结点进行逐一考察，因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多。

Call Crystal Report from Application Engine

Before doing this, check the conditions below: 1. Make sure Process Definition of the Cr

ionic angular 事件点透

添加data-tap-disabled="true"即可＝＝＝＝＝＝＝》上代码： <div ng-if="bigImage" data-tap-disabled="true" ng-click="hi

自动驾驶

自动驾驶相关资源

linux查找jre目录,Linux系统中如何查找JDK的安装路径

1 $JAVA_HOME 使用$JAVA_HOME能定位JDK的安装路径的前提是配置了环境变量$JAVA_HOME，否则运行echo $JAVA_HOME输出为空，根本定位不到JDK的安装路径# echo $JAVA_HOME 2 which java

shopify开发中使用klaviyo邮箱订阅插件遇到的问题，使用轮询监听解决

今天在给客户的开发过程中遇到一个问题，下图

如何使用zeppelin实现大数据可视化

Zeppelin是基于spark的数据可视化方案。支持scala语言，任何在spark上运行的job都可以在此平台上运行，此外支持对表数据的可视化。对数据源的可视化可以通过interpreter进行扩展，比如github中就有支持mysql的interpreter。下面着重介

swagger添加访问密码使用：swagger-bootstrap-ui，@EnableSwaggerBootstrapUI

swagger添加访问密码 https://blog.csdn.net/qq_36090537/article/details/127789962

bp神经网络模型拓扑结构,bp神经网络的建模步骤

如何建立bp神经网络预测模型。建立BP神经网络预测模型，可按下列步骤进行：1、提供原始数据2、训练数据预测数据提取及归一化3、BP网络训练4、BP网络预测5、结果分析现用一个实际的例子，来预测2015年和2016年某地区的人口数。已知20

常见单链表题型（八）链表的回文结构

题目要求对于一个链表，请设计一个时间复杂度为O(n),额外空间复杂度为O(1)的算法，判断其是否为回文结构。给定一个链表的头指针A，请返回一个bool值，代表其是否为回文结构。保证链表长度小于等于900。示例：

Rancher主机之前ping不通情况

（1）编辑vi /etc/sysctl.conf，添加以下内容bash net.bridge.bridge-nf-call-ip6tables = 1 net.bridge.bridge-nf-call-iptables = 1 #正常需要这个够了，Ipv: ne