检查每个组中列的两个值是否相互跟随

作者: 一生浮华
发布时间: 2024-09-04 07:43:26 (16天前)
转自：

3 条回复

0#
回复此人
trpnest | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 你可以尝试： </p> <pre> <code> library(dplyr) df %>% group_by(id) %>% filter(all(diff(row_number()[customer_id == 'undefined']) == 1) & customer_id[n()] != 'undefined') </code> </pre> <P> 输出： </p> <pre> <code> # A tibble: 4 x 3 # Groups: id [1] id date customer_id <int> <fct> <fct> 1 2 01/14/2017 undefined 2 2 02/23/2018 undefined 3 2 03/04/2018 23 4 2 04/04/2018 23 </code> </pre> <P> 此代码假定您的数据框已经安排好了。除此以外： </p> <pre> <code> df %>% arrange(date = as.Date(date, "%m/%d/%Y")) %>% group_by(id) %>% filter(all(diff(row_number()[customer_id == 'undefined']) == 1) & customer_id[n()] != 'undefined') </code> </pre> <P> 基本上，我们所做的是检查每个组是否有行号之间的差异 <code> undefined </code> 情况总是1（即它们是顺序的），以及最后一个值是否是顺序的 <code> undefined </code> 。 </p> <P> 这些记录保存（ <code> id </code> 在你的情况下2）。 </p> </DIV>

编辑
1#
回复此人
那年 | 2019-08-31 10-32

<div class =“post-text”itemprop =“text”> <P> 你可以通过检查是否运行长度编码来实现这一点 <code> customer_id </code> column为2或1，表示id未定义或未定义多次： </p> <pre> <code> data <- read.table(text="id date customer_id 1 02/03/2018 undefined 1 04/23/2018 12 1 05/22/2018 12 1 06/25/2018 undefined 2 01/14/2017 undefined 2 02/23/2018 undefined 2 03/04/2018 23 2 04/04/2018 23", header = T, stringsAsFactors=F) data$date <- as.Date(data$date, "%m/%d/%Y") data$customer_id <- as.integer(data$customer_id) data %>% dplyr::group_by(id) %>% dplyr::arrange(date, .by_group=T) %>% dplyr::filter(length(rle(is.na(customer_id))$values < 3) && !is.na(tail(customer_id, 1))) # A tibble: 4 x 3 # Groups: id [1] id date customer_id <int> <date> <int> 1 2 2017-01-14 NA 2 2 2018-02-23 NA 3 2 2018-03-04 23 4 2 2018-04-04 23 </code> </pre> <P> 请注意，您还必须确保每个组的最后一项有效，否则将从有效ID转到的组 <code> undefined </code> 将通过测试。 </p> </DIV>

编辑

登录后才能参与评论