交叉验证的基本思想

交叉验证的基本想法是重复的使用数据；把给定数据进行切分，将切分的数据集组合为训练集与测试集，再次基础上反复地进行训练、测试、以及模型选择。

简单的交叉验证

1、首先随机得将已给数据分为两部分，一部分作为训练集，一部分作为测试集。（一般是73分）
2、然后用训练集在各种条件下（比如不同的参数）训练模型，从而得到不同的模型；
3、在测试集上评价各个模型的测试误差，选出测试误差最小的模型。
优点：由于测试集和训练集是分开的，就避免了过拟合现象

1.首先将训练数据平均切分成k份，每一份互不相交且大小一样。
2.用k-1个子集进行训练模型，用余下的那一个作为预测。
3.将2这一过程对可能的k种选择重复进行。
4.最后选出k次测评中平均测试误差最小的模型。
优点：这个方法充分利用了所有样本。但计算比较繁琐，需要训练k次，测试k次。

留一法就是每次只留下一个样本做测试集，其它样本做训练集，如果有k个样本，则需要训练k次，测试k次。
优点：留一发计算最繁琐，但样本利用率最高。适合于小样本的情况。