良好的特征工程涉及两个组件。首先是了解您尝试解决的任务的属性以及它们如何与您正在使用的分类器的优势和局限进行交互。第二个是实验性工作,您将测试您的期望并找出实际工作和不工作的内容。
这可以迭代完成:你的 的 自顶向下 强> 对问题的理解激发了实验,然后是 的 自下而上 强> 您为这些实验学到的信息有助于您更好地了解问题。对问题的更深入理解可以推动更多实验。
的 适合您的分类器的功能 强>
让我们说你正在使用一个简单的线性分类器 逻辑回归 或者a SVM 用线性内核。如果您认为可以测量各种属性之间可能存在有趣的交互并将其作为分类器的输入提供,则需要手动构建并提供捕获这些交互的功能。但是,如果您使用具有多项式或高斯内核的SVM,则输入变量之间的交互将已由模型的结构捕获。
类似地,如果某些输入变量具有比其他变量具有更大范围的值,则SVM可以表现不佳(例如,大多数特征采用值0或1,但是一个特征采用-1000和1000之间的值)。因此,当您为SVM进行特征工程时,您可能希望在将特征值提供给分类器之前尝试对其进行标准化。但是,如果你正在使用 决策树 要么 随机森林 ,这种归一化不是必需的,因为这些分类器对于各种特征所采用的值之间的大小差异是鲁棒的。
的 特别注意拼图解决 强>
如果您正在寻找解决复杂状态空间的问题,您可能想要使用 强化学习 方法就像 Q学习 。这有助于构建学习任务,包括通过系统的一系列中间步骤达到某个目标。