机器学习特征工程操作是什么?意义什么【面试题详解】

今天爱分享给大家带来机器学习特征工程操作是什么?意义什么【面试题详解】,希望能够帮助到大家。
特征工程包括数据与特征处理、特征选择和降维三部分。
数据与特征处理包括:
1.数据选择、清洗、采样
– 数据格式化;
– 数据清洗,填充缺失值、去掉脏数据,将不可信的样本丢掉,缺省值极多的字段考虑不用;
– 采样:针对正负样本不平衡的情况,当正样本远大于负样本时,且量都很大时,使用下采样,量不大时,可采集更多的数据或oversampling或修改损失函数;采样过程中可利用分层抽样保持不同类别数据的比例。

2.不同类型数据的特征处理
– 数值型:幅度调整/归一化、log等变化、统计值(例如max、min、mean、std)、离散化、分桶等
– 类别型:one-hot编码等
– 时间型: 提取出连续值的持续时间和间隔时间;提取出离散值的“年”、“月”、“日”、“一年中哪个星期/季度”、“一周中的星期几”、“工作日/周末”等信息
– 文本型:使用tf-idf特征
– 统计型:加减平均、分位线、次序、比例

意义:
– 对数据进行预处理,可提高数据质量,提高挖掘质量。对数据进行清洗可填充缺失值、光滑噪声数据,识别和删除离群点数据,保证数据的一致性;
– 使用正确的采样方法可解决因数据不平衡带来的预测偏差;
– 对不同的数据类型进行不同的特征处理有助于提高特征的可用性,例如对数值型数据进行归一化可将数据转化到统一量纲下;对类别型数据,可用one-hot编码方法将类别数据数字化,数字化特征之后可更用来计算距离、相似性等;可从时间型数据当中提取中更多的时间特征,例如年、月和日等,这些特征对于业务场景以及模型的预测往往有很大的帮助。统计型特征处理有助于从业务场景中挖掘更丰富的信息。

人已赞赏
Python

OOB是什么?随机森林中OOB是如何计算的 优缺点是什么【面试题详解】

2020-12-25 15:22:24

Python

特征选择包括什么?【面试题详解】

2020-12-25 15:24:56

'); })();