numpy.random.standard_t#

random.standard_t(df, size=None)#

从具有 df 自由度的标准学生 t 分布中抽取样本。

双曲分布的一个特例。当 df 增大时，结果会接近标准正态分布 (standard_normal)。

注意

新的代码应使用 Generator 实例的 standard_t 方法；请参见快速入门。

参数:

dffloat 或 array_like of floats: 自由度，必须 > 0。
sizeint 或 int 的元组，可选: 输出形状。如果给定的形状是，例如，(m, n, k)，则抽取 m * n * k 个样本。如果 size 为 None（默认），当 df 是标量时，返回单个值。否则，抽取 np.array(df).size 个样本。

返回:

outndarray 或标量: 从参数化的标准学生 t 分布中抽取样本。

另请参阅

random.Generator.standard_t: 新代码应使用此方法。

备注

t 分布的概率密度函数为

\[P(x, df) = \frac{\Gamma(\frac{df+1}{2})}{\sqrt{\pi df} \Gamma(\frac{df}{2})}\Bigl( 1+\frac{x^2}{df} \Bigr)^{-(df+1)/2}\]

t 检验基于数据来自正态分布的假设。t 检验提供了一种测试样本均值（即从数据计算出的均值）是否是真实均值的好估计的方法。

t 分布的推导首次于 1908 年由威廉·戈塞特（William Gosset）发表，当时他在都柏林的吉尼斯酿酒厂工作。由于保密问题，他不得不使用笔名发表，因此他使用了“学生”（Student）这个名字。

参考

[1]

Dalgaard, Peter，“Introductory Statistics With R”，Springer，2002。

[2]

维基百科，“学生 t 分布” https://en.wikipedia.org/wiki/Student’s_t-distribution

示例

根据 Dalgaard 第 83 页 [1]，假设 11 位女性每天的能量摄入量（以千焦耳 kJ 为单位）为：

>>> intake = np.array([5260., 5470, 5640, 6180, 6390, 6515, 6805, 7515, \
...                    7515, 8230, 8770])

她们的能量摄入量是否系统性地偏离建议值 7725 kJ？我们的零假设将是不存在偏差，而备择假设将是存在正面或负面的影响，因此我们的检验是双侧检验。

由于我们正在估计均值，并且我们的样本中有 N=11 个值，因此我们有 N-1=10 个自由度。我们将显著性水平设置为 95%，并使用经验均值和经验标准差来计算 t 统计量。我们使用 ddof 为 1，以使经验标准差的计算基于方差的无偏估计（注意：由于平方根的凹性，最终估计不是无偏的）。

>>> np.mean(intake)
6753.636363636364
>>> intake.std(ddof=1)
1142.1232221373727
>>> t = (np.mean(intake)-7725)/(intake.std(ddof=1)/np.sqrt(len(intake)))
>>> t
-2.8207540608310198

我们从具有足够自由度的学生 t 分布中抽取 1000000 个样本。

>>> import matplotlib.pyplot as plt
>>> s = np.random.standard_t(10, size=1000000)
>>> h = plt.hist(s, bins=100, density=True)

我们的 t 统计量是否落在分布两侧的两个临界区域之一？

>>> np.sum(np.abs(t) < np.abs(s)) / float(len(s))
0.018318  #random < 0.05, statistic is in critical region

对于这个双侧检验，概率值约为 1.83%，低于预先确定的 5% 显著性阈值。

因此，在零假设为真的条件下，观察到与我们的摄入量一样极端的观测值的概率太低，我们拒绝零假设，即不存在偏差。

../../../_images/numpy-random-standard_t-1.png