numpy.random.Generator.multivariate_normal#

方法

random.Generator.multivariate_normal(mean, cov, size=None, check_valid='warn', tol=1e-8, *, method='svd')#

从多元正态分布中抽取随机样本。

多变量正态分布（multivariate normal，multinormal 或 Gaussian 分布）是一维正态分布向更高维度的推广。这种分布由其均值和协方差矩阵指定。这些参数类似于一维正态分布的均值（平均值或“中心”）和方差（标准差的平方或“宽度”）。

参数:

mean一维类数组，长度为 N: N 维分布的均值。
cov二维类数组，形状为 (N, N): 分布的协方差矩阵。为了正确抽样，它必须是对称的且半正定的。
sizeint 或 int 的元组，可选: 给定例如 (m,n,k) 的形状，将生成 m*n*k 个样本，并打包成 m x n x k 的数组。由于每个样本是 N 维的，因此输出形状为 (m,n,k,N)。如果未指定形状，则返回单个（N 维）样本。
check_valid{ ‘warn’, ‘raise’, ‘ignore’ }，可选: 协方差矩阵不是半正定时的行为。
tol浮点数，可选: 检查协方差矩阵中的奇异值时的容差。在检查之前，cov 被转换为双精度。
method{ ‘svd’, ‘eigh’, ‘cholesky’}, optional: cov 输入用于计算一个因子矩阵 A，使得 A @ A.T = cov。此参数用于选择用于计算因子矩阵 A 的方法。默认方法 ‘svd’ 最慢，而 ‘cholesky’ 最快但不如最慢的方法鲁棒。方法 eigh 使用特征值分解来计算 A，比 svd 快但比 cholesky 慢。

返回:

outndarray

绘制的样本，形状为 *size*，如果已提供。如果未提供，则形状为 (N,)。

换句话说，out[i,j,...,:] 的每个条目都是从该分布中抽取的 N 维值。

备注

均值是 N 维空间中的一个坐标，它代表样本最有可能被生成的位置。这类似于一维或单变量正态分布的钟形曲线的峰值。

协方差表示两个变量一起变化的程度。从多变量正态分布中，我们抽取 N 维样本 \(X = [x_1, x_2, ..., x_N]\)。协方差矩阵元素 \(C_{ij}\) 是 \(x_i\) 和 \(x_j\) 的协方差。元素 \(C_{ii}\) 是 \(x_i\) 的方差（即其“散布范围”）。

除了指定完整的协方差矩阵外，流行的近似方法包括

球形协方差（cov 是单位矩阵的倍数）
对角协方差（cov 的元素非负，仅在对角线上）

通过绘制生成的数据点，可以在二维中看到这种几何特性

>>> mean = [0, 0]
>>> cov = [[1, 0], [0, 100]]  # diagonal covariance

对角协方差意味着变量是独立的，并且概率密度轮廓的轴与坐标轴对齐

>>> import matplotlib.pyplot as plt
>>> rng = np.random.default_rng()
>>> x, y = rng.multivariate_normal(mean, cov, 5000).T
>>> plt.plot(x, y, 'x')
>>> plt.axis('equal')
>>> plt.show()

请注意，协方差矩阵必须是半正定的（也称为非负定的）。否则，此方法的行为未定义，且不保证向后兼容。

此函数内部使用线性代数例程，因此结果在不同的体系结构、操作系统甚至构建之间可能不完全相同（即使在精度上）。例如，如果 cov 具有多个相等的奇异值且 method 为 'svd'（默认），则很可能如此。在这种情况下，method='cholesky' 可能更鲁棒。

参考

[1]

Papoulis, A., “Probability, Random Variables, and Stochastic Processes,” 3rd ed., New York: McGraw-Hill, 1991.

[2]

Duda, R. O., Hart, P. E., and Stork, D. G., “Pattern Classification,” 2nd ed., New York: Wiley, 2001.

示例

>>> mean = (1, 2)
>>> cov = [[1, 0], [0, 1]]
>>> rng = np.random.default_rng()
>>> x = rng.multivariate_normal(mean, cov, (3, 3))
>>> x.shape
(3, 3, 2)

我们可以使用默认方法以外的其他方法来分解 cov

>>> y = rng.multivariate_normal(mean, cov, (3, 3), method='cholesky')
>>> y.shape
(3, 3, 2)

我们在此从均值为 [0, 0]、协方差矩阵为 [[6, -3], [-3, 3.5]] 的二元正态分布中生成 800 个样本。样本的第一和第二分量的预期方差分别为 6 和 3.5，预期的相关系数为 -3/sqrt(6*3.5) ≈ -0.65465。

>>> cov = np.array([[6, -3], [-3, 3.5]])
>>> pts = rng.multivariate_normal([0, 0], cov, size=800)

检查样本的均值、协方差和相关系数是否接近预期值

>>> pts.mean(axis=0)
array([ 0.0326911 , -0.01280782])  # may vary
>>> np.cov(pts.T)
array([[ 5.96202397, -2.85602287],
       [-2.85602287,  3.47613949]])  # may vary
>>> np.corrcoef(pts.T)[0, 1]
-0.6273591314603949  # may vary

我们可以通过散点图可视化这些数据。点云的朝向说明了该样本分量的负相关性。

>>> import matplotlib.pyplot as plt
>>> plt.plot(pts[:, 0], pts[:, 1], '.', alpha=0.5)
>>> plt.axis('equal')
>>> plt.grid()
>>> plt.show()

../../../_images/numpy-random-Generator-multivariate_normal-1.png