数据预处理的技巧

Author

Lee

Published

August 8, 2025

机器学习,最花时间的不是训练模型,而是整理数据。模型好不好,很大程度上取决于你前期怎么处理数据。很多时候我们80%的精力都花在清洗、规范、补全这些看起来“琐碎”的步骤上。数据处理得越干净,后面建模就越轻松,效果也更稳。

在这篇文章中,我们将主要使用R语言的tidyverse包来进行探索性数据分析(EDA),涉及到10个数据预处理的方法:

1 数据清洗

1.1 处理缺失值

  1. 均值填充
  2. 插值法

1.2 异常值处理

2 数据标准化