numpy.random.Generator.binomial#

方法

random.Generator.binomial(n, p, size=None)#

从二项式分布中抽取样本。

样本从具有指定参数的二项式分布中抽取，其中 n 为试验次数，p 为成功概率，n 是一个大于等于 0 的整数，p 在区间 [0,1] 内。（n 可以作为浮点数输入，但在使用时会被截断为整数）

参数:

nint 或 array_like of ints: 分布的参数，>= 0。也接受浮点数，但它们将被截断为整数。
pfloat 或 array_like of floats: 分布的参数，>= 0 且 <=1。
sizeint 或 tuple of ints, optional: 输出形状。如果给定形状是，例如 (m, n, k)，则抽取 m * n * k 个样本。如果 size 为 None（默认），则当 n 和 p 都是标量时，返回一个单一值。否则，抽取 np.broadcast(n, p).size 个样本。

返回:

outndarray 或 scalar: 从参数化的二项式分布中抽取的样本，每个样本等于 n 次试验中的成功次数。

另请参阅

scipy.stats.binom: 概率密度函数、分布或累积密度函数等。

注释

二项式分布的概率质量函数 (PMF) 为

\[P(N) = \binom{n}{N}p^N(1-p)^{n-N},\]

其中 \(n\) 是试验次数，\(p\) 是成功概率，\(N\) 是成功次数。

当使用随机样本估计总体中比例的标准误差时，正态分布通常表现良好，除非乘积 p*n <=5（其中 p = 总体比例估计值，n = 样本数量），在这种情况下应使用二项式分布。例如，一项对 15 人的抽样调查显示，有 4 人是左撇子，11 人是右撇子。那么 p = 4/15 = 27%。0.27*15 = 4，因此在这种情况下应该使用二项式分布。

参考文献

[1]

Dalgaard, Peter, “Introductory Statistics with R”, Springer-Verlag, 2002。

[2]

Glantz, Stanton A. “Primer of Biostatistics.”, McGraw-Hill, Fifth Edition, 2002。

[3]

Lentner, Marvin, “Elementary Applied Statistics”, Bogden and Quigley, 1972。

[4]

Weisstein, Eric W. “二项式分布。”来自 MathWorld–A Wolfram Web Resource。 https://mathworld.net.cn/BinomialDistribution.html

[5]

维基百科，“二项式分布”，https://en.wikipedia.org/wiki/Binomial_distribution

示例

从分布中抽取样本

>>> rng = np.random.default_rng()
>>> n, p, size = 10, .5, 10000  
>>> s = rng.binomial(n, p, 10000)

假设一家公司钻探 9 口未勘探油井，每口井的估计成功概率为 p=0.1。所有九口井都失败了。发生这种情况的概率是多少？

在 size = 20,000 次试验中，这种情况发生的平均概率是

>>> n, p, size = 9, 0.1, 20000
>>> np.sum(rng.binomial(n=n, p=p, size=size) == 0)/size
0.39015  # may vary

以下可用于可视化 n=100，p=0.4 的样本以及相应的概率密度函数

>>> import matplotlib.pyplot as plt
>>> from scipy.stats import binom
>>> n, p, size = 100, 0.4, 10000
>>> sample = rng.binomial(n, p, size=size)
>>> count, bins, _ = plt.hist(sample, 30, density=True)
>>> x = np.arange(n)
>>> y = binom.pmf(x, n, p)
>>> plt.plot(x, y, linewidth=2, color='r')

../../../_images/numpy-random-Generator-binomial-1.png