numpy.random.Generator.hypergeometric#
方法
- random.Generator.hypergeometric(ngood, nbad, nsample, size=None)#
从超几何分布中抽取样本。
样本从具有指定参数的超几何分布中抽取,这些参数是 ngood(良好选择的方式)、nbad(不良选择的方式)和 nsample(抽取的项目数量,该数量小于或等于
ngood + nbad
的总和)。- 参数:
- ngood整数或类似整数的数组
良好选择的数量。必须是非负数且小于 10**9。
- nbad整数或类似整数的数组
不良选择的数量。必须是非负数且小于 10**9。
- nsample整数或类似整数的数组
抽取的项目数量。必须是非负数且小于
ngood + nbad
。- size整数或整数元组,可选
输出形状。如果给定形状是例如
(m, n, k)
,则抽取m * n * k
个样本。如果 size 为None
(默认值),则当 ngood、nbad 和 nsample 均为标量时返回单个值。否则,将抽取np.broadcast(ngood, nbad, nsample).size
个样本。
- 返回:
- outndarray 或标量
从参数化的超几何分布中抽取的样本。每个样本是在从 ngood 个良好项目和 nbad 个不良项目中随机选择的 nsample 大小的子集中良好项目的数量。
另请参阅
multivariate_hypergeometric
从多元超几何分布中抽取样本。
scipy.stats.hypergeom
概率密度函数、分布或累积密度函数等。
注意
超几何分布的概率质量函数(PMF)为
\[P(x) = \frac{\binom{g}{x}\binom{b}{n-x}}{\binom{g+b}{n}},\]其中 \(0 \le x \le n\) 且 \(n-b \le x \le g\)
P(x) 是在抽取样本中获得
x
个良好结果的概率,g = ngood,b = nbad,n = nsample。想象一个装有黑白弹珠的瓮,其中 ngood 个是黑色的,nbad 个是白色的。如果你不放回地抽取 nsample 个球,那么超几何分布描述了抽取样本中黑球的分布。
请注意,此分布与二项分布非常相似,不同之处在于,超几何分布是无放回抽样,而二项分布是有放回抽样(或样本空间是无限的)。当样本空间变得很大时,此分布会趋近于二项分布。
参数 ngood 和 nbad 都必须小于 10**9。对于极大的参数,用于计算样本的算法 [4] 会因浮点计算中的精度损失而失效。对于此类大值,如果 nsample 不是很大,则该分布可以使用二项分布近似,即 binomial(n=nsample, p=ngood/(ngood + nbad))。
参考文献
[1]Lentner, Marvin, “基础应用统计学”, Bogden and Quigley, 1972。
[2]Weisstein, Eric W. “超几何分布。” 摘自 MathWorld – 沃弗拉姆网络资源。 https://mathworld.net.cn/HypergeometricDistribution.html
[3]维基百科,“超几何分布”, https://en.wikipedia.org/wiki/Hypergeometric_distribution
[4]Stadlober, Ernst, “生成离散随机变量的均匀分布比值方法”,《计算与应用数学期刊》,31,第 181-189 页 (1990)。
示例
从分布中抽取样本
>>> rng = np.random.default_rng() >>> ngood, nbad, nsamp = 100, 2, 10 # number of good, number of bad, and number of samples >>> s = rng.hypergeometric(ngood, nbad, nsamp, 1000) >>> from matplotlib.pyplot import hist >>> hist(s) # note that it is very unlikely to grab both bad items
假设你有一个瓮,里面有 15 颗白色弹珠和 15 颗黑色弹珠。如果你随机抽取 15 颗弹珠,其中有 12 颗或更多是同一种颜色的可能性有多大?
>>> s = rng.hypergeometric(15, 15, 15, 100000) >>> sum(s>=12)/100000. + sum(s<=3)/100000. # answer = 0.003 ... pretty unlikely!