机器学习,最花时间的不是训练模型,而是整理数据。模型好不好,很大程度上取决于你前期怎么处理数据。很多时候我们80%的精力都花在清洗、规范、补全这些看起来“琐碎”的步骤上。数据处理得越干净,后面建模就越轻松,效果也更稳。
在这篇文章中,我们将主要使用R语言的tidyverse
包来进行探索性数据分析(EDA),涉及到10个数据预处理的方法:
- 数据清洗
- 数据标准化
- 数据编码
- 特征选择
- 特征缩放
- 降维
- 数据拆分
- 数据增强
- 数据平衡
- 数据转换
1 数据清洗
1.1 处理缺失值
- 均值填充
- 插值法
Lee
August 8, 2025