已编辑：根据列匹配传播数据

作者: 日耀九洲
发布时间: 2024-07-20 04:31:42 (1天前)
转自：

4 条回复

0#
回复此人
是吗@ | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 你要做的是 <code> one hot encoding </code> 您可以轻松实现使用 <code> model.matrix </code> </p> <P> 下面的例子应该带你到正确的方向： </p> <pre> <code> df <- data.frame(important_col = as.factor(c(1:3))) df important_col 1 1 2 2 3 3 as.data.frame(model.matrix(~.-1, df)) important_col1 important_col2 important_col3 1 1 0 0 2 0 1 0 3 0 0 1 </code> </pre> </DIV>

编辑
1#
回复此人
v-star*위위 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 这是否解决了这个问题： </p> <P> 数据： </p> <pre> <code> set.seed(123) df1 <- data.frame(replicate(5, sample(1:20, 10, rep=TRUE))) colnames(df1) <- c("col1", "col2", "col3", "col4", "important_col") df2 <- data.frame(replicate(20, sample(0:0, nrow(df1), rep=TRUE))) colnames(df2) <- gsub("X", "", colnames(df2)) df_fin <- cbind(df1, df2) </code> </pre> <P> 结果： </p> <pre> <code> vecp <- colnames(df2) imp_col <- df1$important_col m <- matrix(vecp, byrow = TRUE, nrow = length(imp_col), ncol = length(vecp)) d <- ifelse(m == imp_col, 1, 0) df_fin <- cbind(df1, d) </code> </pre> <P> 输出： </p> <pre> <code> col1 col2 col3 col4 important_col 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 6 20 18 20 3 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 16 10 14 19 9 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 3 9 14 13 14 9 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 4 18 12 20 16 8 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 5 19 3 14 1 4 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 1 18 15 10 3 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 11 5 11 16 5 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8 18 1 12 5 10 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 9 12 7 6 7 6 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 10 10 20 3 5 18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 </code> </pre> </DIV>

编辑
2#
回复此人
记忆只剩空城 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 就像Sonny提到的那样，model.matrix（）应该完成这项工作。一个潜在的问题是你必须添加一些没有出现在你的important_col中的列，如下例所示： </p> <pre> <code> df <- data.frame(important_col = as.factor(c(1:3, 5))) df important_col 1 1 2 2 3 3 4 5 as.data.frame(model.matrix(~.-1, df)) important_col1 important_col2 important_col3 important_col5 1 1 0 0 0 2 0 1 0 0 3 0 0 1 0 4 0 0 0 1 </code> </pre> <P> 第二个df中缺少Col4，因为important_col不包含值4.如果需要进行分析，则必须添加col 4。 </p> </DIV>

编辑

登录后才能参与评论