我想使用循环对大数据集进行概率测试。我知道如何进行计算,但我想将其作为测试。 (就像一个随机的“掷硬币”测试)用这个假df:
…
这是使用的一种方法 sample 和 value_counts :
sample
value_counts
df.sample(n=1000, replace=True)['Fruit'].value_counts(normalize=True)
输出:
Banana 0.418 Apple 0.387 Citrus 0.195 Name: Fruit, dtype: float64
要获得Banana的值,只需从pd.Series中选择索引:
df.sample(n=1000, replace=True)['Fruit'].value_counts(normalize=True)['Banana']
.418