Author

Lee

Published

November 14, 2023

本文主要针对监督式学习。

1 模型的选择预评价步骤

监督式模型的选择与评价通常有如下步骤，图 1：

抽样(sampling)：将数据通过一定的比例划分为训练数据(train data)，测试数据(test data)和验证数据(validate data)。常用的抽样方法有：保留方法抽样(Section 2.1)，自助法抽样(Section 2.2)，632自助法(Section 2.3)，过采样(Section 2.4)。
交叉验证(cross-validation)：Section 3, 将数据分为k等份，每次取出k-1部分作为训练数据，剩余的作为验证数据。
模型选择：Section 4, 偏差与方差(Section 4.2)、模型的复杂度(Section 4.3)、模型调参等。
测试数据预测：使用选择出的模型，利用测试数据进行预测。
模型评价：将预测结果和测试数据的目标变量做比较，根据目标变量的类型，选择不同的评价方法：
- 目标变量是分类因子，使用混淆矩阵评价
- 目标变量是数值，使用误差均方和评价

图 1: 模型选择与评价步骤

2 抽样方法

数据抽样方法如图 2 所示。

图 2: 数据抽样方法

R语言中的抽样方法的名称和参数如 (tab-Rsample?) 所示

R语言抽样方法的名称和参数
抽样方法	方法名称	参数
保留抽样 Holdout sampling	LGOCV	p = 0.75 (训练数据比例)
k 折交叉验证 k-fold cross-validation	cv	K= 5 (K 折, 默认值 5)
重复k折交叉验证 Repeated k-fold cross-validation	repeatedcv	K=5，rep = 1
自助抽样 Bootstrap sampling	boot	R = 10 (自助抽样,重复次数)
632自助法 0.632 Bootstrap	boot632	R = 10 (自助抽样,重复次数)
留一交叉验证 Leave-one-out cross-validation	LOOCV	无

2.1 保留方法抽样

最为简单、常用的抽样方法，从数据抽样中按照一定比例保留一部分作为训练数据，一部分做验证数据，一部分做测试数据。

2.2 自主抽样法

2.3 632自助法

2.4 过采样

3 交叉验证

4 模型选择

4.1 参数学习与非参数学习

4.2 偏差与方差

4.3 模型的复杂度

4.4 正则化

4.5 认真学习与懒惰学习

5 模型评价

6 实战