我有一个大型数据集,我想从中采样一组日期/事务ID每个交易ID与数据中的多行相关 - 比如说每个ID和1-20行。我想归还所有这些……
假设您的数据集已经按ID +日期排序(或编入索引),则可以在1个数据步骤中对此类型进行一些简单的随机抽样,例如:使用DOW循环:
data want; call streaminit(0); sample_rate = 0.05; flag = rand('uniform') < sample_rate; do until(last.date); set have; by ID date; if flag then output; end; drop flag sample_rate; run;