numpy.random.Generator.standard_t#

方法

random.Generator.standard_t(df, size=None)#

从自由度为 df 的标准学生 t 分布中抽取样本。

是双曲线分布的一个特例。当 df 变得很大时,结果类似于标准正态分布 (standard_normal)。

参数:
df浮点数或浮点数数组

自由度,必须 > 0。

sizeint 或 int 元组,可选

输出形状。如果给定形状为,例如,(m, n, k),则抽取 m * n * k 个样本。如果 size 为 None(默认),则当 df 为标量时返回单个值。否则,抽取 np.array(df).size 个样本。

返回:
outndarray 或 标量

从参数化的标准学生 t 分布中抽取的样本。

备注

t 分布的概率密度函数为

\[P(x, df) = \frac{\Gamma(\frac{df+1}{2})}{\sqrt{\pi df} \Gamma(\frac{df}{2})}\Bigl( 1+\frac{x^2}{df} \Bigr)^{-(df+1)/2}\]

t 检验基于数据来自正态分布的假设。t 检验提供了一种方法来检验样本均值(即从数据计算出的均值)是否是真实均值的一个良好估计。

t 分布的推导于 1908 年由 William Gosset 在都柏林健力士啤酒厂工作时首次发表。由于专有权问题,他不得不使用笔名发表,因此他使用了“Student”这个名字。

参考文献

[1]

Dalgaard, Peter, “Introductory Statistics With R”, Springer, 2002.

[2]

维基百科,“学生 t 分布” https://en.wikipedia.org/wiki/Student’s_t-distribution

示例

摘自 Dalgaard 第 83 页 [1],假设 11 名女性的每日能量摄入量(千焦耳 kJ)为

>>> intake = np.array([5260., 5470, 5640, 6180, 6390, 6515, 6805, 7515, \
...                    7515, 8230, 8770])

她们的能量摄入是否系统性地偏离了推荐值 7725 kJ?我们的零假设将是没有偏差,备择假设将是存在可能是正或负的影响,因此我们的检验是双尾的。

因为我们正在估计均值,并且我们的样本中有 N=11 个值,所以我们有 N-1=10 个自由度。我们将显著性水平设置为 95%,并使用我们摄入量的经验均值和经验标准差计算 t 统计量。我们使用 ddof 为 1 来基于方差的无偏估计来计算经验标准差(注意:由于平方根的凹性,最终估计不是无偏的)。

>>> np.mean(intake)
6753.636363636364
>>> intake.std(ddof=1)
1142.1232221373727
>>> t = (np.mean(intake)-7725)/(intake.std(ddof=1)/np.sqrt(len(intake)))
>>> t
-2.8207540608310198

我们从具有适当自由度的学生 t 分布中抽取 1000000 个样本。

>>> import matplotlib.pyplot as plt
>>> rng = np.random.default_rng()
>>> s = rng.standard_t(10, size=1000000)
>>> h = plt.hist(s, bins=100, density=True)

我们的 t 统计量是否落在分布两尾的两个临界区域之一中?

>>> np.sum(np.abs(t) < np.abs(s)) / float(len(s))
0.018318  #random < 0.05, statistic is in critical region

此双尾检验的概率值约为 1.83%,低于预定的 5% 显著性阈值。

因此,在零假设为真的情况下,观察到像我们摄入量那样极端值的概率太低,我们拒绝没有偏差的零假设。

../../../_images/numpy-random-Generator-standard_t-1.png