numpy.random.Generator.f#

方法

random.Generator.f(dfnum, dfden, size=None)#

从 F 分布中抽取样本。

从具有指定参数的 F 分布中抽取样本,其中 dfnum(分子自由度)和 dfden(分母自由度),两个参数都必须大于零。

F 分布(也称为 Fisher 分布)的随机变量是一种连续概率分布,出现在方差分析检验中,并且是两个卡方随机变量的比值。

参数:
dfnum浮点数或浮点数数组(array_like)

分子自由度,必须大于 0。

dfden浮点数或浮点数数组(array_like)

分母自由度,必须大于 0。

sizeint 或 int 的元组,可选

输出形状。如果给定的形状是,例如,(m, n, k),那么将抽取 m * n * k 个样本。如果 size 是 None(默认值),当 dfnumdfden 都是标量时,将返回一个单独的值。否则,将抽取 np.broadcast(dfnum, dfden).size 个样本。

返回:
outndarray 或标量

从参数化的 Fisher 分布中抽取的样本。

另请参阅

scipy.stats.f

概率密度函数、分布或累积密度函数等。

备注

F 统计量用于比较组内方差与组间方差。分布的计算取决于采样,因此它是问题中 respective 自由度的函数。dfnum 变量是样本数减一,即组间自由度,而 dfden 是组内自由度,即每组样本数之和减去组数。

参考

[1]

Glantz, Stanton A.,“Primer of Biostatistics.”,McGraw-Hill,第五版,2002。

[2]

维基百科,“F 分布”,https://en.wikipedia.org/wiki/F-distribution

示例

Glantz [1],第 47-40 页的一个例子

两组,糖尿病儿童(25 人)和无糖尿病儿童(25 例对照)。测量了空腹血糖,病例组的平均值为 86.1,对照组的平均值为 82.2。标准差分别为 2.09 和 2.49。这些数据是否与零假设一致,即父母的糖尿病状况不影响其子女的血糖水平?从数据计算 F 统计量得到值为 36.01。

从分布中绘制样本

>>> dfnum = 1. # between group degrees of freedom
>>> dfden = 48. # within groups degrees of freedom
>>> rng = np.random.default_rng()
>>> s = rng.f(dfnum, dfden, 1000)

前 1% 样本的下界是

>>> np.sort(s)[-10]
7.61988120985 # random

因此,F 统计量超过 7.62 的概率约为 1%,测量值为 36,因此在 1% 的水平上拒绝零假设。

对于 n = 20m = 20 的相应概率密度函数是

>>> import matplotlib.pyplot as plt
>>> from scipy import stats
>>> dfnum, dfden, size = 20, 20, 10000
>>> s = rng.f(dfnum=dfnum, dfden=dfden, size=size)
>>> bins, density, _ = plt.hist(s, 30, density=True)
>>> x = np.linspace(0, 5, 1000)
>>> plt.plot(x, stats.f.pdf(x, dfnum, dfden))
>>> plt.xlim([0, 5])
>>> plt.show()
../../../_images/numpy-random-Generator-f-1.png