本文主要针对监督式学习。
1 模型的选择预评价步骤
监督式模型的选择与评价通常有如下步骤,图 1:
- 抽样(sampling):将数据通过一定的比例划分为训练数据(train data),测试数据(test data)和验证数据(validate data)。常用的抽样方法有:保留方法抽样(Section 2.1),自助法抽样(Section 2.2),632自助法(Section 2.3),过采样(Section 2.4)。
- 交叉验证(cross-validation):Section 3, 将数据分为k等份,每次取出k-1部分作为训练数据,剩余的作为验证数据。
- 模型选择:Section 4, 偏差与方差(Section 4.2)、模型的复杂度(Section 4.3)、模型调参等。
- 测试数据预测:使用选择出的模型,利用测试数据进行预测。
-
模型评价:将预测结果和测试数据的目标变量做比较,根据目标变量的类型,选择不同的评价方法:
- 目标变量是分类因子,使用混淆矩阵评价
- 目标变量是数值,使用误差均方和评价
2 抽样方法
数据抽样方法如 图 2 所示。
R语言中的抽样方法的名称和参数如 (tab-Rsample?) 所示
抽样方法 | 方法名称 | 参数 |
---|---|---|
保留抽样 Holdout sampling |
LGOCV | p = 0.75 (训练数据比例) |
k 折交叉验证 k-fold cross-validation |
cv | K= 5 (K 折, 默认值 5) |
重复k折交叉验证 Repeated k-fold cross-validation |
repeatedcv | K=5,rep = 1 |
自助抽样 Bootstrap sampling |
boot | R = 10 (自助抽样,重复次数) |
632自助法 0.632 Bootstrap |
boot632 | R = 10 (自助抽样,重复次数) |
留一交叉验证 Leave-one-out cross-validation |
LOOCV | 无 |
2.1 保留方法抽样
最为简单、常用的抽样方法,从数据抽样中按照一定比例保留一部分作为训练数据,一部分做验证数据,一部分做测试数据。