今天爱分享给大家带来如何做数据预处理【详细介解】,希望能够帮助到大家。
1. 缺失值,填充缺失值fillna:
i. 离散:None,
ii. 连续:均值。
iii. 缺失值太多,则直接去除该列
2. 连续值:离散化。有的模型(如决策树)需要离散值
3. 对定量特征二值化。核心在于设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0。如图像澡作
4. 皮尔逊相关系数,去除高度相关的列
原文链接:https://blog.itblood.com/2880.html,转载请注明出处。