numpy.random.RandomState.standard_t#
方法
- random.RandomState.standard_t(df, size=None)#
从自由度为 df 的标准学生 t 分布中抽取样本。
双曲分布的一个特例。当 df 变得很大时,结果类似于标准正态分布 (
standard_normal
)。注意
新代码应该使用
standard_t
方法Generator
实例;请参阅 快速入门。- 参数:
- dffloat 或 array_like of floats
自由度,必须 > 0。
- sizeint 或元组 ints,可选
输出形状。如果给定的形状为,例如,
(m, n, k)
,则将绘制m * n * k
个样本。如果 size 为None
(默认值),则如果df
为标量,则返回单个值。否则,将绘制np.array(df).size
个样本。
- 返回值:
- outndarray 或标量
从参数化的标准学生 t 分布中抽取的样本。
另请参阅
random.Generator.standard_t
这应该用于新代码。
注释
t 分布的概率密度函数为
\[P(x, df) = \frac{\Gamma(\frac{df+1}{2})}{\sqrt{\pi df} \Gamma(\frac{df}{2})}\Bigl( 1+\frac{x^2}{df} \Bigr)^{-(df+1)/2}\]t 检验基于数据来自正态分布的假设。t 检验提供了一种方法来检验样本均值(即根据数据计算的均值)是否是总体均值的良好估计。
t 分布的推导首次发表在 1908 年,当时威廉·戈塞特在都柏林的健力士啤酒厂工作。由于专有权问题,他不得不在笔名下发表文章,因此他使用了“学生”这个名字。
参考文献
[1]Dalgaard,Peter,“使用 R 的入门统计学”,Springer,2002 年。
[2]维基百科,“学生 t 分布” https://en.wikipedia.org/wiki/Student’s_t-distribution
示例
来自 Dalgaard 第 83 页 [1],假设 11 位女性的每日能量摄入量(以千焦耳 (kJ) 为单位)为
>>> intake = np.array([5260., 5470, 5640, 6180, 6390, 6515, 6805, 7515, \ ... 7515, 8230, 8770])
他们的能量摄入量是否与推荐值 7725 kJ 系统地偏离?我们的零假设将是没有偏差,而备择假设将是存在可能为正或负的影响,因此使我们的检验成为双尾检验。
因为我们正在估计均值,并且我们的样本中有 N=11 个值,所以我们有 N-1=10 个自由度。我们将我们的显着性水平设置为 95%,并使用我们摄入量的经验均值和经验标准差来计算 t 统计量。我们使用 ddof 为 1 来使我们的经验标准差的计算基于对方差的无偏估计(注意:由于平方根的凹性,最终估计不是无偏的)。
>>> np.mean(intake) 6753.636363636364 >>> intake.std(ddof=1) 1142.1232221373727 >>> t = (np.mean(intake)-7725)/(intake.std(ddof=1)/np.sqrt(len(intake))) >>> t -2.8207540608310198
我们从具有适当自由度的学生 t 分布中抽取 1000000 个样本。
>>> import matplotlib.pyplot as plt >>> s = np.random.standard_t(10, size=1000000) >>> h = plt.hist(s, bins=100, density=True)
我们的 t 统计量是否落在分布两端发现的两个临界区域之一中?
>>> np.sum(np.abs(t) < np.abs(s)) / float(len(s)) 0.018318 #random < 0.05, statistic is in critical region
此双尾检验的概率值为约 1.83%,低于 5% 的预定显着性阈值。
因此,在零假设为真的条件下观察到与我们摄入量一样极端的值的概率太低,我们拒绝没有偏差的零假设。