模型的选择与评价-R语言机器学习

tidyverse
机器学习,数据分析
Author

Lee

Published

November 14, 2023

本文主要针对监督式学习。

1 模型的选择预评价步骤

监督式模型的选择与评价通常有如下步骤,图 1

  1. 抽样(sampling):将数据通过一定的比例划分为训练数据(train data),测试数据(test data)和验证数据(validate data)。常用的抽样方法有:保留方法抽样(Section 2.1),自助法抽样(Section 2.2),632自助法(Section 2.3),过采样(Section 2.4)。
  2. 交叉验证(cross-validation)Section 3, 将数据分为k等份,每次取出k-1部分作为训练数据,剩余的作为验证数据。
  3. 模型选择Section 4, 偏差与方差(Section 4.2)、模型的复杂度(Section 4.3)、模型调参等。
  4. 测试数据预测:使用选择出的模型,利用测试数据进行预测。
  5. 模型评价:将预测结果和测试数据的目标变量做比较,根据目标变量的类型,选择不同的评价方法:
    • 目标变量是分类因子,使用混淆矩阵评价
    • 目标变量是数值,使用误差均方和评价

图 1: 模型选择与评价步骤

2 抽样方法

数据抽样方法如 图 2 所示。

图 2: 数据抽样方法

R语言中的抽样方法的名称和参数如 (tab-Rsample?) 所示

R语言抽样方法的名称和参数
抽样方法 方法名称 参数
保留抽样
Holdout sampling
LGOCV p = 0.75 (训练数据比例)
k 折交叉验证
k-fold cross-validation
cv K= 5 (K 折, 默认值 5)
重复k折交叉验证
Repeated k-fold cross-validation
repeatedcv K=5,rep = 1
自助抽样
Bootstrap sampling
boot R = 10 (自助抽样,重复次数)
632自助法
0.632 Bootstrap
boot632 R = 10 (自助抽样,重复次数)
留一交叉验证
Leave-one-out cross-validation
LOOCV

2.1 保留方法抽样

最为简单、常用的抽样方法,从数据抽样中按照一定比例保留一部分作为训练数据,一部分做验证数据,一部分做测试数据。

2.2 自主抽样法

2.3 632自助法

2.4 过采样

3 交叉验证

4 模型选择

4.1 参数学习与非参数学习

4.2 偏差与方差

4.3 模型的复杂度

4.4 正则化

4.5 认真学习与懒惰学习

5 模型评价

6 实战