机器学习之交叉验证

交叉验证的基本思想

   交叉验证的基本想法是重复的使用数据;把给定数据进行切分,将切分的数据集组合为训练集与测试集,再次基础上反复地进行训练、测试、以及模型选择。

简单的交叉验证

1、首先随机得将已给数据分为两部分,一部分作为训练集,一部分作为测试集。(一般是73分)
2、然后用训练集在各种条件下(比如不同的参数)训练模型,从而得到不同的模型;
3、在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
优点:由于测试集和训练集是分开的,就避免了过拟合现象

k折交叉验证

1.首先将训练数据平均切分成k份,每一份互不相交且大小一样。
2.用k-1个子集进行训练模型,用余下的那一个作为预测。
3.将2这一过程对可能的k种选择重复进行。
4.最后选出k次测评中平均测试误差最小的模型。
优点:这个方法充分利用了所有样本。但计算比较繁琐,需要训练k次,测试k次。

留一法

留一法就是每次只留下一个样本做测试集,其它样本做训练集,如果有k个样本,则需要训练k次,测试k次。
优点:留一发计算最繁琐,但样本利用率最高。适合于小样本的情况。

-------------本文结束感谢您的阅读-------------

本文标题:机器学习之交叉验证

文章作者:pspxiaochen

发布时间:2018年06月29日 - 10:06

原始链接:https://pspxiaochen.club/cross-validation/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

如果对你有帮助,方便的话麻烦给我的午饭加一颗卤蛋