首页 1 2 3 4 5 6 7

模型容量，过拟合与欠拟合（VC维与奥卡姆剃刀）

模型的容量：是指其拟合各种函数的能力。容量低的模型很难拟合训练集，容量高的模型容易过拟合。通过处理特征课改变模型容量，例如假设真实数据符合三次分布，那么用二次函数很难拟合(容量低)，加入三次项后效果提高，若用九次项拟合（容量过高）会发生过拟合。
奥卡姆剃刀：在同样能够解释已知观测现象的假设中，我们应该挑选‘‘最简单’’ 的那一个。
VC维：是统计理论中一种量化模型容量的方法，定义为该分类器能够分类的训练样本的最大数目（能够打散的点的数目，参考：
https://www.zhihu.com/question/38607822）。

训练误差指的是在训练集上计算的误差。泛化误差也被称为测试误差。假设训练集和数据集中的数据都是独立同分布的，那么训练集误差的期望和测试集误差的期望是相同的。当然，当我们使用机器学习算法时，我们不会提前固定参数，然后采样得到两
个数据集。我们采样得到训练集，然后挑选参数去降低训练集误差，然后采样得到测
试集。在这个过程中，测试误差期望会大于或等于训练误差期望。以下是决定机器
学习算法效果是否好的因素：
1，降低训练误差
2，缩小训练误差和测试误差差距。