(13).replaceAll(“\”“,”“).toInt, s(14).replaceAll(“\”“,”“).toInt, s(15).replaceAll(“\”“,”“), s(16).replaceAll(“\”“,”“)))val bankDF = bankrdd.toDF()bankDF.printSchema()
Dataframe如下所示。
怎么做 特征 </跨度> 工程 </跨度> 对于专栏年龄并在广告系列中找到合适的年龄效应 …
我正在使用Apache Spark进行代码分配。
那你为什么不向导师询问这个问题呢?它可能有助于找到这个问题和未来问题的答案。强烈推荐。
如何为列进行特征工程 age 并找到正确的 age 作用于 campaign ?
age
campaign
首先,我将使用Spark SQL和Spark MLlib中最新,最好的API。你的生活会变得如此简单。
随着说(我对机器学习的实际使用的有限理解)我 认为 你应该使用 VectorAssembler 变压器组装功能列。
将多个列合并到矢量列中的要素转换器。
从官方文档中了解 VectorAssembler :
VectorAssembler 是一个变换器,它将给定的列列表组合到一个向量列中。将原始特征和由不同特征变换器生成的特征组合成单个特征向量非常有用,以便训练ML模型,如逻辑回归和决策树。
VectorAssembler