你真的理解机器学习中偏差 - 方差之间的权衡吗？

lastSeries 发布于2019-07-30 15:09 / 1916人阅读

摘要：机器学习中的偏差方差之间的权衡机器学习全部是关于给定输入数据和给定输出数据，然后去寻找一个最佳映射函数，这个映射函数通常也被叫做目标函数。

作者：chen_h
微信号 & QQ：862251340
微信公众号：coderpai
简书地址：http://www.jianshu.com/p/f143...

我认为对偏差 - 方差之间的权衡判读对学习机器学习是非常重要的。那么为什么这么说呢？因为这个现象的背后是所有参数，性能和几乎所有机器学习模型的深层原因。如果你能很深刻的理解这个，我保证你能很好的理解机器学习的每一个模型。

所以，我们就不浪费时间在无聊的介绍中，直接深入挖掘吧。理论讲解可能有一点枯燥，但我希望你能耐心看完本文。

机器学习中的偏差 - 方差之间的权衡

机器学习全部是关于给定输入数据（X）和给定输出数据（Y），然后去寻找一个最佳映射函数（F），这个映射函数通常也被叫做目标函数。

任何机器学习算法的预测误差可以分解为三部分，即：偏差误差+方差误差+不可约的误差（对于给定的模型，我们不能进一步减少的误差）。在这个文章中，我们将重点来讨论机器学习中的前两个误差。我们按照如下目录来进行讲解：

1）偏差误差；

2）方差误差；

3）偏差 - 方差之间的权衡；

4）一些想法的总结；

1. 偏差误差

用简单的话来说，这个误差是由于简单的假设所造成的，因为我们的假设越简单，那么我们的模型更加容易去训练。

一般而言，参数化算法具有较高的偏差，使得学习速度非常快，而且非常容易去理解，但是通常不太灵活。

注意：对于参数化算法和非参数化算法之间的区别，简单来说，参数化算法对数据进行参数化，形成很多的特征，这种方法训练速度非常快，而且也不需要很多的数据，但是他不是很灵活。非参数化算法对目标函数做出很少或者根本不做任何假设，但是它需要更多的数据，训练速度非常慢，模型复杂度非常高，但是模型非常强大。

低偏差：对目标函数提出更少的假设；

高偏差：对目标函数提出更多的假设；

低偏差模型例子：KNN 和 SVM；

高偏差模型例子：线性回归和逻辑斯特回归；

2. 方差误差

1）如果我们使用不同的数据去训练同一个模型，那么最后我们得到的目标函数估计也是会改变的。

2）目标函数是由机器学习的训练数据所估计得到的，所以我们期望训练数据拥有一定的方差。理想情况下，我们不希望目标函数从一个训练数据集到另一个训练数据集有太大的变化，也就是说我们的算法需要很好的从训练数据中找到一些映射的特征关系，这样可以保证不同训练集都有一个差不多的目标函数。

低方差：随着训练数据集的变化，对目标函数估计值的变化非常小；

高方差：随着训练数据集的变化，对目标函数估计值的变化非常大；

一般而言，具有很大灵活性的非参数学习算法都具有很高的方差。

高方差例子：KNN 和 SVM。

3. 偏差 - 方差之间的权衡

在上面的例子中我们可以看到一个趋势：参数或者线性的机器学习算法一般都会有一个很高的偏差和一个很低的方差。但是，非参数或者非线性的机器学习算法一般都有一个很低的偏差和一个很高的方差。所有，我们需要在这两者之间找到一个平衡点，来优化我们的算法。

比如，KNN 算法有很低的偏差和很高的方差，但是我们可以通过调整 k 的值来改变偏差和方差之间的权衡关系，从而达到一个比较平衡的状态。

因此，我们增加偏差会导致方差的减少，同理，我们增加方差会导致偏差的减少。但在实践中，我们无法去计算真正的偏差和方差值，因为我们不知道实际的目标函数。但是，作为一种方法，偏差和方差为我们提供了一种去判断机器学习算法性能的方法。

4. 一些想法的总结

1）机器学习是去找到一个映射函数（F），这个函数也经常被称之为目标函数；

2）偏差是模型所做的简化假设，使得目标函数更加容易求解；

3）方差是在给定不同训练数据集的情况下，目标函数估计值所改变的量；

4）权衡是去调整一些参数使得偏差和方差之间相对平衡；

作者：chen_h
微信号 & QQ：862251340
简书地址：http://www.jianshu.com/p/f143...

CoderPai 是一个专注于算法实战的平台，从基础的算法到人工智能算法都有设计。如果你对算法实战感兴趣，请快快关注我们吧。加入AI实战微信群，AI实战QQ群，ACM算法微信群，ACM算法QQ群。长按或者扫描如下二维码，关注 “CoderPai” 微信号（coderpai）

云服务器 GPU云服务器你理解中的云服务器ecs是什么你理解的html 机器学习在企业中的应用深度学习的理解

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/41080.html

论文解读：华盛顿大学教授Pedro Domingos技术论文：机器学习中一些有用的知识（一）

摘要：机器学习初学者最常犯的错误是测试训练数据，并有成功的幻觉。机器学习中的每个人都知道过度拟合，但它有很多形式，并不是很明显。事实上，理论与实践的密切相互作用是机器学习多年来取得如此巨大进步的主要原因之一。摘要：这是机器学习研究人员和从业人员所学到的12个关键经验教训的总结，包括避免陷阱，重点问题以及常见问题的答案。 showImg(https://segmentfault.com/i...

wqj97 2019-05-29 17:05 评论0 收藏0

发表评论

登陆后可评论

0条评论

lastSeries

男|高级讲师

我要关注我要私信

TA的文章

tensorflow1.x

阅读 3791·2023-04-25 20:00
主机域名是什么意思-主机域名是哪个？

阅读 3129·2021-09-22 15:09
Virtono：€23.7/年KVM-2GB/25GB/2TB/洛杉矶&a

阅读 527·2021-08-25 09:40
腾讯云星星海SA2云服务器上线1.2折起,100%CPU性能,3.3GHz高频,2核4G6M,173

阅读 3436·2021-07-26 23:38
前端学习整理资料（未完待续）

阅读 2218·2019-08-30 15:53
浏览器默认值汇总

阅读 1110·2019-08-30 13:46
Slog63_项目上线之ArthurSlog个人网站上线2

阅读 2807·2019-08-29 16:44
如何找到所有 HTML select 标签的选中项

阅读 2062·2019-08-29 15:32

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

你真的理解机器学习中偏差 - 方差之间的权衡吗？

相关文章

论文解读：华盛顿大学教授Pedro Domingos技术论文：机器学习中一些有用的知识（一）

发表评论

0条评论

lastSeries

男|高级讲师

TA的文章

tensorflow1.x

主机域名是什么意思-主机域名是哪个？

Virtono：€23.7/年KVM-2GB/25GB/2TB/洛杉矶&a

腾讯云星星海SA2云服务器上线1.2折起,100%CPU性能,3.3GHz高频,2核4G6M,173

前端学习整理资料（未完待续）

浏览器默认值汇总

Slog63_项目上线之ArthurSlog个人网站上线2

如何找到所有 HTML select 标签的选中项

最新活动