代码空间


摘要(Abstract)

特征工程很好的混合了专业领域知识、直觉和基本的数学能力。 时间戳处理 分解类别属性 分箱/分区 交叉特征 特征选择 特征缩放 特征提取 异常数据的清洗和样本的选取 数据预处理 无量纲化 标准化 区间缩放法 归一化 对定量特征二值化(离散化) 对定性特征进行独热编码 缺失值的处理 删除 统计填充 统一填充 预测填充 具体分析 数据变换 特征选择 过滤法,包装法,嵌入法 Filter方差选择法, 相关系数法,卡方检验,互信息法,Wrapper,递归特征消除法,Embedded,基于惩罚项的特征选择法,基于树模型的特征选择法,训练能够对特征打分的预选模型:GBDT、RandomForest和Logistic Regression等都能对模型的特征打分,通过打分获得相关性后再训练最终模型; 特征组合,降维,主成分分析法(PCA),线性判别分析法(LDA)


主题(Topic)

项目(Project)