在机器学习的整个流程中,数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量,进而影响模型的训练效果和泛化能力。本文将从数据预处理和特征工程的基本概念
2024-07-09 15:57
机器学习最基础的5个流程,分别是数据获取,数据预处理,特征工程,建模、测试和预测,上线与部署。
2024-01-25 11:26
对于缺失值是任何一个数据集都不可避免的,在数据统计过程中可能是无意的信息被遗漏,比如由于工作人员的疏忽,忘记而缺失;或者由于数据采集器等故障等原因造成的缺失,或者是有意的有些数据集在特征描述中会规定将缺失值也作为一种特征值,再或者是不存在的,有些
2019-03-14 15:19
如上图所示,目标变量明显泄漏到了f190486列中。事实上,我没有用任何机器学习就得到了0.57分,这在排行榜上是个高分。在竞赛截止日期前二十天左右,主持竞赛的桑坦德银行终于发现了这个问题,但他们最终还是决定继续比赛,让参赛者假设这是一个数据属性。
2018-09-05 09:00
对于类别数量很多的分类变量可以采用特征哈希(Hashing Trick),特征哈希的目标就是将一个数据点转换成一个向量。利用的是哈希函数将原始数据转换成指定范围内的散列值,相比较独热模型具有很多优点,如支持在线学习,维度减小很多灯。具体参考数据
2019-04-19 16:42
来看下完整的数据集,可以看到分布在七张表中有 5800 万行数据,而机器学习方法需要针对一张表进行模型训练。此时,特征工程就需要将每个客户的所有信息提取并融合到一个表中。
2018-09-05 09:17
取决于具体的业务问题,你需要决定这是一个多元分类问题,还是一个二元分类问题。如果是二元分类问题,那么只有Certified(批准)和Denied(拒签)两个分类。所以你要做的第一件事是将剩余的分类转换为Certified或Denied。其中,Rejected和Invalidated都是拒签的情形,所以应该将这两种状态转换为Denied。在美签中,Pending Quality and compliance的最终结果最可能是拒签,所以也应该转换为Denied。Certified withdrawn(批准后撤回)则是批准的情形,因为签证已经批准了,只不过雇主因为种种原因(比如劳工更换工作单位)而决定撤回申请。
2018-07-26 09:22
本文主要从股市数据变量的特征分布及特征重要性两个角度对数据进行分析。
2022-03-16 17:26