过拟合(overfitting)

2021-04-22 14:45:00 浏览:1053

定义

过拟合是机器学习中的一个概念,其表示模型在训练过程中将数据中的噪声作为有效信息进行分析,进而导致模型中的参数过于准确的描述训练数据而在其他数据中不适用的现象。

机器学习中的误差(error)

在机器学习中,通常将数据分为训练集和测试集两部分。模型通过训练集得到自身的参数,并在新样本中进行性能的测试。误差,即为模型的实际预测输出与样本的真实输出之间的差异。进一步,在训练集中的误差为“训练误差”,而在新样本,如测试样本中的误差则被称为“泛化误差”。

训练误差越小说明模型对训练集中样本的学习越充分,但并不代表着训练误差越小越好。因为训练样本只是该类数据中的小部分,其无法代表整体样本分布。一个训练误差很小的模型,意味着模型很有可能将训练样本自身的特点作为了整体样本的特点,而这种训练样本独有的特点在测试样本中并不存在,这会导致模型的泛化误差很大,即出现了过拟合现象。

因此当模型在训练集中的训练误差过小,而在测试集中的泛化误差偏大时,便是出现了过拟合现象。

过拟合的解决方案

1、获取更多的数据

训练数据越充分,其能够代表整体样本分布的可能性就越大,发生过拟合的可能性随之降低。目前常用的增加数据的方式为数据扩充(data augmentation)。

2、选择合适的模型

当数据较少,而模型结构又较为复杂时,过拟合现象很容易产生。针对问题的难度选取合适的模型也能够在一定程度上缓解过拟合问题。

3、结合多种模型

将一个模型结构训练多次,模型会通过不同的视角看待样本,综合这些模型可以取长补短,得到泛化能力更强的模型。

4、增加约束(正则化)

正则化是指约束模型的学习以减少过拟合的过程,其在模型学习的过程中针对特定参数增加特定的限制进而实现提高模型泛化能力的目的。常用的正则化方法有L1和L2正则化 。

参考文献

[1] overfitting. https://en.wikipedia.org/wiki/Overfitting
[2] 周志华. 机器学习[M]. 清华大学出版社, 2016.

作          者: 泮桥成像光电商城

出          处: https://www.ipanqiao.com/entry/674

版          权:本文版权归泮桥成像光电商城所有

免责声明:本文中使用的部分文字内容与图片来自于网络,如有侵权,请联系作者进行删除。

转          载:欢迎转载,但必须保留上述声明;必须在文章中给出原文链接;否则必究法律责任。

Copyright © 2019-2022 南京超维景生物科技有限公司 版权所有 www.ipanqiao.com苏ICP备20009590号-1
联系我们
立即做合同
微信客服
电话咨询

400-998-9826

17302548620

快速留言

泮桥成像光电商城专业人员会在24小时之内联系您

关闭 提交