在我看来,使用它没有多大意义
Normalizer
首先是单热编码数据。在Spark中,OHE对两种类型的模型很有用:
多项朴素贝叶斯。
线性模型。
在第一种情况下,归一化将使特征完全无用(多项模型只能充分利用二元特征)。在第二种情况下,它将使模型的解释几乎不可能。
即使您忽略上述规范化数据也不能再被解释为二进制特征,因此丢弃元数据似乎是一种有效的行为。
相关
为什么StandardScaler不将元数据附加到输出列?