决策树分类原理

“简单来说，决策树就是设计分支判断条件”

大家都学过数据结构，其中的树形结构都了然于心，决策树就可以看成是，每一个分叉处做出条件，满足哪一个，就继续向下走，直到把树遍历完成为止。

既然都说到这份上了，决策树的关键一定不是预测，毕竟遍历的操作和if...else...大家都会，条件也会给出来，那决策树重要的一点在于什么呢？

“建树”

关键在于怎样生成决策树：

依据什么标准或者指标去生成，到底哪个特征放在前面（哪个作为权重最大的，最能区分的）

量化分类区分：

信息熵

基尼系数（评估一个分类区分度）

“信息熵”：

想必大家高中都学过“熵”这个概念：熵越大越不平衡

信息熵越小，分类区分度越好，排前面，信息熵越大（越不确定，意味着越糊涂）

用我们陈老师的话来说就是：把聪明的特征区分排前面！！！！

“基尼系数”：

基尼系数越小，意味着信息越确定

而这两个比较下来的话，算法时间复杂度的角度：推荐基尼系数

直观的看一下分类的图:

一就是一二就是二，如果切割的很细，就容易出现过拟合

好的，懂得了工式和原理，我们写一个DecisionTree类（代码注释均已标出），这样更加便于理解：

样本点：

dt = DecisionTree()
dt.fit(X,y)
print(dt.tree)

调用后生成的树：

预测新样本：

dt.predict(t,r)
print(r)

2023-08-25每日一题一、题目编号 1448. 统计二叉树中好节点的数目二、题目链接

09年中国人民银行招聘笔试-----计算机部分试卷整体说来,不是很难,但涉及的知识点还是比较多.要求的是知识面广.由于计算机部分的历年考题不是很好找,大多也是一些记忆,本文也一样是一些不完整的记忆.写出来希望对下一年的考生有所帮助.试卷分为四个部分:一、

Abstract 本文介绍了ORB-SLAM，这是一种基于特征的单目SLAM系统，可在大小型室内外环境中实时运行。该系统对严重的运动模糊具有鲁棒性，可实现较宽的基线回环和重定位，并包括全自动的初始化。我们基于近年来的出色算法，从头开始

此博客参考b站：【黑马程序员前端JavaScript入门到精通全套视频教程，javascript核心进阶ES6语法、API、js高级等基础知识和实战教程】https://www.bilibili.com/video/BV1Y84y1L7Nn?p=76&vd_source=06e554

下面以安装搜狗拼音为例做个小实验，其他软件的安装可以以此作为参考来实现。实验目标：使用批处理实现搜狗拼音的自动安装实验步骤： 1.下载搜狗拼音的安装包，本实验使用sogou_pinyin_50a.exe。

什么是数据挖掘，都有哪些算法数据挖掘(Data Mining)，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可

最近接手一个windows 下的oracle ，发现监听日志已经到了1.5G。以前都是在aix，linux上干活，突然倒了windows反而不太习惯。下面记录一下清理过程： D:\oracle\product\102\NETWORK

Ingress-nginx: Kubernetes 暴露服务的有三种方式，分别为 LoadBlancer Service、NodePort Service、Ingress。官网对 Ingress 的定义为管理对外服务到集群内服务之间规则的集合，通俗点讲就是它定义规则来允许进

数学中的杨辉三角大家都不陌生，那怎样用程序的方式求n行的杨辉三角呢？方法很多，队列就是其中的一种。下面给出基于队列实现的杨辉三角。

005 MELON的难题前言：本专栏将持续更新互联网大厂机试真题，并进行详细的分析与解答，包含完整的代码实现，希望可以帮助到正在努力的你。关于大厂机试流程、面经、面试指导等，如有任何疑问，欢迎联系