首页 1 2 3 4 5 6 7

机器学习算法10_决策树+CART(回归树)

机器学习算法第十篇

主要内容:决策树算法+CART(回归树)

$\$

CART算法概念

CART(classification and regression tree) 故英文名思意:分类和回归树.
CART算法包含决策树生成和决策树剪枝两部分
CART决策生成树部分主要分为生成回归树和生成分类树
本篇主要讲生成回归树
$\$

算法目的

构建一棵可以对输入样本进行很好预测,并输出预测值的二叉决策回归树

$\$

恩, 开始测试的时候,它是这样做的…

把一个样本放入节点
比较自身与节点的特征,选择一个分支: ‘下去’
循环 ‘下去’ , 直到叶子节点为止
当一个测试样本a落入某叶子时, 该叶子的c值作为该样本a的预测值输出
(某叶子的c值是该树在训练时候, 训练集划分到该叶子的所有样本的输出值的平均值)
(每个节点都有一个特征选择,如:长头发向左分支,短头发向右分支,该选择是决策树生成的时候遗留的)

$\$

那问题来了, 训练的时候如何生成一棵树?

算法一开始将所有训练样本丢到根节点
然后通过某准则将它们切成两份,分别丢入左节点与右节点
然后对每个节点按照该准则继续切分,直到某个情况发生,停止切分,直接生成叶子节点
(某情况是指:例如节点内样本数不能低于10个,树的层数不超过11层…参数设置的问题啊)

$\$

那问题又来了,什么准则可以很好的切分?

算法这样做滴:
我们针对一个节点D, 定义一个误差函数J 它可以计算该节点内所有样本的的总误差J(D)
然后取节点内某特征m与该特征的某个取值n,
再按照每个样本的的 $\le n与m>n$

$\$

那问题又又来了,误差函数怎么定才好?

算法说:单个节点所有样本的预测值与平均值之差的平方的和(总方差)作为该叶子节点误差
$即:单个节点误差=\sum^{节点样本总数}_{i=1}(y_i-\bar y)^2$

$\$

这个式子可以很好表达我们对误差的定义,
同时每个叶子内部所有样本输出值y的总方差越小,其平均值c的代表性就越高
(在样本容量相同的情况下，方差越大，说明数据的波动越大，越不稳定)

$\$

$\$

$\$

《Kubernetes部署篇：Ubuntu20.04基于containerd二进制部署K8S 1.24.12集群(一主多从)》

一、架构图

Rabbitmq消息队列详解

文章目录

向量的大小

#include<vector> #include<iostream> #include<algorithm> using namespace std;

multer结合FormData多文件上传

tips 记录一下使用multer 和 FormData 多文件上传的几个注意点和具体过程页面 input 元素添加 multiple 属性

《Go 语言第一课》课程学习笔记（九）

常量：Go 在“常量”设计上的创新有哪些？ Go 语言在常量方面的创新包括下面这几点：支持无类型常量；支持隐式自动转型；可用于实现枚举。

Postgresql 配置远程访问

文章目录

android xml 样式,android – 在xml文件中使用@,在样式中使用parent属性

可能重复你好朋友, 我看过很多样式文件,看到有些时候@log被用在xml文件的样式选项卡中的parent属性中,有些没有这个@就像这样上述声明与/不使用@有什么区别吗？如果是,那么有什么区别解决方法: T

Unity自动创建Txt和读取TXT 往Txt里面可以写入两种创建方法和四种读取方式

using System.Collections; using System.Collections.Generic; using UnityEngine; using System.IO; //操作文件夹时需引用该命名空间 using System

mysql 大表性能_MySQL在非常大的表上计算性能

我在Innodb中有一个表格，其中有超过1亿行。我必须知道外键= 1时是否有超过5000行。我不需要确切的数字。我做了一些测试： SELECT COUNT(*) FROM table WHERE fk = 1 => 16秒

HTTP协议简单介绍

Http协议是超文本传输协议的缩写，是用于从万维网服务器传输超文本到本地浏览器的传送协议。Http协议是一个基于