numpy.random.hypergeometric#

random.hypergeometric(ngood, nbad, nsample, size=None)#

从超几何分布中抽取样本。

从具有指定参数的超几何分布中抽取样本,ngood(进行良好选择的次数)、nbad(进行不良选择的次数)和 nsample(抽取的项目数量,小于或等于总和 ngood + nbad)。

注意

新代码应使用 hypergeometric 方法 Generator 实例;请参阅 快速入门.

参数:
ngoodint 或类数组的 int

进行良好选择的次数。必须是非负数。

nbadint 或类数组的 int

进行不良选择的次数。必须是非负数。

nsampleint 或类数组的 int

抽取的项目数量。必须至少为 1,且最多为 ngood + nbad

sizeint 或 int 元组,可选

输出形状。如果给定形状为,例如 (m, n, k),则会抽取 m * n * k 个样本。如果 size 为 None(默认),则如果 ngoodnbadnsample 均为标量,则返回单个值。否则,会抽取 np.broadcast(ngood, nbad, nsample).size 个样本。

返回值:
outndarray 或标量

从参数化的超几何分布中抽取的样本。每个样本都是从一组 ngood 个良好项目和 nbad 个不良项目中随机选择的 nsample 大小的子集中良好项目的数量。

参见

scipy.stats.hypergeom

概率密度函数、分布或累积密度函数等。

random.Generator.hypergeometric

应用于新代码。

注释

超几何分布的概率密度为

\[P(x) = \frac{\binom{g}{x}\binom{b}{n-x}}{\binom{g+b}{n}},\]

其中 \(0 \le x \le n\)\(n-b \le x \le g\)

对于 P(x),即抽取的样本中 x 个良好结果的概率,g = ngood,b = nbad,n = nsample

假设有一个装有黑球和白球的罐子,其中 ngood 个为黑球,nbad 个为白球。如果在不放回的情况下取出 nsample 个球,那么超几何分布描述了抽取的样本中黑球的分布。

请注意,这种分布与二项分布非常相似,不同之处在于,在这种情况下,样本是在不放回的情况下抽取的,而在二项分布的情况下,样本是在放回的情况下抽取的(或样本空间是无限的)。随着样本空间变大,这种分布会逼近二项分布。

参考资料

[1]

Lentner, Marvin, “Elementary Applied Statistics”, Bogden and Quigley, 1972.

[2]

Weisstein, Eric W. “Hypergeometric Distribution.” From MathWorld–A Wolfram Web Resource. https://mathworld.wolfram.com/HypergeometricDistribution.html

[3]

Wikipedia, “Hypergeometric distribution”, https://en.wikipedia.org/wiki/Hypergeometric_distribution

示例

从分布中抽取样本

>>> ngood, nbad, nsamp = 100, 2, 10
# number of good, number of bad, and number of samples
>>> s = np.random.hypergeometric(ngood, nbad, nsamp, 1000)
>>> from matplotlib.pyplot import hist
>>> hist(s)
#   note that it is very unlikely to grab both bad items

假设有一个装有 15 个白球和 15 个黑球的罐子。如果随机取出 15 个球,那么其中 12 个或更多为同一种颜色的可能性有多大?

>>> s = np.random.hypergeometric(15, 15, 15, 100000)
>>> sum(s>=12)/100000. + sum(s<=3)/100000.
#   answer = 0.003 ... pretty unlikely!